CST's online-værktøjer

Tip

Peg på de fede ord for at få forklaring.

Sprog

Navnegenkenderen og navneordsfrasegenkenderen (NP-genkender) understøtter kun dansk. Alle øvrige værktøjer understøtter alle sprog i listen.

Flere optioner

Du kan vælge flere optioner til fx lemmatiseren.

Færre optioner

For at skabe bedre overblik kan du få vist færre optioner - kun de mest anvendte.

Bonuskode

Bonuskoden giver mulighed for at analysere større tekstmængder.
Få en aftale med os hvis du er interesseret.

Henvendelse til bartj@hum.ku.dk.

Demotekst

Demoteksten bestemmes på basis af de værktøjer du vælger. Fx bruges "Traktaten om en forfatning for Europa" til gentagelsestjekkeren og "Dansk er et mærkeligt sprog" til lemmatiseren. (Forudsat at du har valgt dansk som sprog.)

Tokeniser

Adskiller enhederne (tokens) i teksten fra hinanden. Fx
Ups, → Ups ,

Nogle flerordsudtryk bindes derimod sammen til enheder. Fx
for længst → for_længst

Programmet deler desuden teksten op i sætninger.

Navnegenkender

Finder og markerer navne og datoer i teksten.

Navnegenkender (CSTNER)

Finder og markerer navne og datoer i teksten.

POS-tagger

(Part-Of-Speech Tagger)

Bestemmer ordklasse og morfologiske træk for alle tokens i teksten.

Lemmatiser

Danner grundformen af et givet ord.
Fx 'gik' → 'gå', 'husets' → 'hus'.

I demoen står valget mellem løbende tekst (med eller uden ordenes bøjede form) eller en alfabetisk liste (alle bøjede former pr. lemma eller omvendt).

Orddeler

Deler et sammensat ord i dets orddele.

NP-genkender

(eller navneordsfrasegenkender)

Samler leddene i et NP, et substantivsyntagme, til en enhed.

Gentagelsestjekker

Bruger en probabilistisk model til at finde og vægte gentagne sekvenser af ord (egentlig: tokens) i teksten.

Teksten skal have mindst to sætninger.

N-gramfrekevnser

Tæller alle forekomster af alle unigrammer (=ord), bigrammer og trigrammer i teksten.

Keywords

Finder keywordkandidater i en tekst.

Flerordstermer

Finder keywordkandidater i en tekst.

Flerordstermer

Finder keywordkandidater i en tekst.

Lemmatiseringsvalg

Vis

Sortering:

Vis kun de ord som ikke er fundet i ordbogen

Ordbogen

dansk: STO, engelsk; nederlandsk og tysk: CELEX; islandsk: IFD; russisk: lemmatizer.org; fransk: limsi+lexique; polsk: Morfologik; bulgarsk, estisk, farsi, makedonsk, rumænsk, slovakisk, slovensk, tjekkisk, ukrainsk, ungarsk: MULTEXT-East; latin: Perseus; græsk: G. Petasis; portugisisk: LABEL-LEX; spansk: lachica; italiansk: morph-it; afrikaans: UD_Afrikaans; kroatisk: SETimes.HR; svensk: Språkbanken

Ordbogen

Ordbog

Ordfrekvenserne i ordbogen kan bruges til at fjerne flertydigheder. Desuden kan ordbogen håndtere små fejl i ordklassetildelingen.

Vis om ordet er fundet

Ord som ikke er i ordbogen, markeres det med '-'.
Ord som kan tilhøre flere end ét lemma, markeres det med '+'.
De øvrige ord markeres ikke.

Flertydigheder

Nogle ord kan strengt taget ikke entydigt lemmatiseres på basis af ordform (og ordklasse) alene. Lemmatiserens heuristik kan dog altid "løse" problemet.

Løbende tekst

Alle ord i samme rækkefølge som i teksten.

Bøjet form + lemma

Viser både ordenes bøjede form og deres lemmaer.

Kun lemma

Viser kun ordenes lemmaer.

Sorteret liste

Alfabetisk sorteret liste uden dubletter.

Visning

Lemmaer alene, alle lemmaer pr. ord eller (ved sortering) alle ord pr. lemma.

Sorteringsrækkefølge

Sorter ifølge felternes rækkefølge.

Lemma + bøjede former

Liste sorteret på lemma. For hvert lemma gives en liste med de fundne bøjede former.

Bøjet form + lemmaer

Liste sorteret på bøjede former. For hver bøjede form gives lemmaet/lemmaerne.

Find termkandidater i en tekstmængde.

Teksterne tokeniseres, evt. navnegenkendes, POS-tagges og lemmatiseres. Lemmaerne udskrives som en liste. Det markeres om ordene findes i ordbogen. Nu kan fx substantiver der er markeret med '-' udtrækkes.

Kandidater til flerordstermer kan søges med gentagelsestjekkeren.

Find de indholdstunge elementer i en tekst.

Teksten tokeniseres, evt. navnegenkendes, POS-tagges og markeres for navneordsfraser.

Anonymiser en tekst

Teksten tokeniseres og navnegenkendes.

Personnavnene, som nu er markeret med "*PERSONNAMEX"
(fx "Ole=P.=Dam*PERSONNAMEX"), kan nu erstattes med fx "XXX".

CST's online-værktøjer

Tip

Sprog

Flere optioner

Færre optioner

Bonuskode

Demotekst

Tokeniser

Navnegenkender

Navnegenkender (CSTNER)

POS-tagger

Lemmatiser

Orddeler

NP-genkender

Gentagelsestjekker

N-gramfrekevnser

Keywords

Flerordstermer

Flerordstermer

Lemmatiseringsvalg

Ordbogen

Ordbogen

Ordbog

Vis om ordet er fundet

Flertydigheder

Løbende tekst

Bøjet form + lemma

Kun lemma

Sorteret liste

Visning

Sorteringsrækkefølge

Lemma + bøjede former

Bøjet form + lemmaer

Find termkandidater i en tekstmængde.

Find de indholdstunge elementer i en tekst.

Anonymiser en tekst

Links