CST's online-værktøjer

Her kan du behandle tekst med en kombination af CST's værktøjer.
Alle værktøjer understøtter dansk og nogle også andre sprog.

Sprog:  Bonuskode:

Skriv et par linjer ...

... eller specificer en tekst- eller RTF-fil.   Eller se en demotekst!

Vælg et eller flere værktøjer:












Tip

Peg på de fede ord for at få forklaring.

Sprog

Navnegenkenderen og navneordsfrasegenkenderen (NP-genkender) understøtter kun dansk. Alle øvrige værktøjer understøtter alle sprog i listen.

Flere optioner

Du kan vælge flere optioner til fx lemmatiseren.

Færre optioner

For at skabe bedre overblik kan du få vist færre optioner - kun de mest anvendte.

Bonuskode

Bonuskoden giver mulighed for at analysere større tekstmængder.
Få en aftale med os hvis du er interesseret.

Henvendelse til bartj@hum.ku.dk.

Demotekst

Demoteksten bestemmes på basis af de værktøjer du vælger. Fx bruges "Traktaten om en forfatning for Europa" til gentagelsestjekkeren og "Dansk er et mærkeligt sprog" til lemmatiseren. (Forudsat at du har valgt dansk som sprog.)

Tokeniser

Adskiller enhederne (tokens) i teksten fra hinanden. Fx
  Ups,Ups ,

Nogle flerordsudtryk bindes derimod sammen til enheder. Fx
  for længstfor_længst

Programmet deler desuden teksten op i sætninger.

POS-tagger

(Part-Of-Speech Tagger)

Bestemmer ordklasse og morfologiske træk for alle tokens i teksten.

Lemmatiser

Danner grundformen af et givet ord.
Fx 'gik''gå', 'husets''hus'.

I demoen står valget mellem løbende tekst (med eller uden ordenes bøjede form) eller en alfabetisk liste (alle bøjede former pr. lemma eller omvendt).

Orddeler

Deler et sammensat ord i dets orddele.

Gentagelsestjekker

Bruger en probabilistisk model til at finde og vægte gentagne sekvenser af ord (egentlig: tokens) i teksten.

Teksten skal have mindst to sætninger.

N-gramfrekevnser

Tæller alle forekomster af alle unigrammer (=ord), bigrammer og trigrammer i teksten.

Keywords

Finder keywordkandidater i en tekst.

Flerordstermer

Finder keywordkandidater i en tekst.

Flerordstermer

Finder keywordkandidater i en tekst.

Find termkandidater i en tekstmængde.

Teksterne tokeniseres, evt. navnegenkendes, POS-tagges og lemmatiseres. Lemmaerne udskrives som en liste. Det markeres om ordene findes i ordbogen. Nu kan fx substantiver der er markeret med '-' udtrækkes.

Kandidater til flerordstermer kan søges med gentagelsestjekkeren.

Anonymiser en tekst

Teksten tokeniseres og navnegenkendes.

Personnavnene, som nu er markeret med "*PERSONNAMEX"
(fx "Ole=P.=Dam*PERSONNAMEX"), kan nu erstattes med fx "XXX".

Links

Andre websider med online værktøjer, med mange flere muligheder, er Clarin logoClarins Værktøjskasse og det endnu mere avancerede Text Tonsorium💈.


Hvis du vil vide mere om de enkelte værktøjer, kan du besøge disse sider:


Nogle projekter med CST-deltagelse viser også demoer.


Nogle værktøjer og lingvistiske resurser kan hentes fra CST's DOWNLOAD-side.


POS-taggerens danske lingvistiske resurser er baseret på Parole korpuset. Se download-siden for mere info.


Lemmatiserens ordlister stammer fra STO (da), CELEX (de, en, nl), Icelandic Centre for Language Technology IFD (is), lemmatizer.org (ru), Morfologik 1.5 (pl), Lexique + Limsi (fr), Perseus (la), G. Petasis (el) og MULTEXT-East free lexicons 4.0 (bg,cs,et,hu,ro,sk,sl,uk). MULTEXT-East non-commercial lexicons 4.0 (fa,mk). LABELLEX (pt). lachica (es). morph-it (it). UD Afrikaans (af). SETimes.HR+ (hr). Språkbanken (sv).


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Webmaster: bartj(at]hum dot ku.dk