CST's Lemmatiser

CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. Fx

"Lemmatisering kan bruges til mange forskellige formål"

Lemmatisering/N_INDEF_SING/lemmatisering  kan/V_PRES/kunne  bruges/V_INF_PAS/bruge  til/PRÆP/til mange/ADJ/mangen  forskellige/ADJ/forskellig  formål/N_INDEF_PLU/formål


Lemmatiseren beregner grundformen/opslagsformen af ord på baggrund af en række regler og en ordbog der begge afspejler forholdet mellem ordformer og grundformer.

Reglerne der er brugt i denne demo, er genereret på baggrund af STO-ordbasen. På grund af basens store omfang og høje kvalitet beregnes lemmaet med 94 -98 % nøjagtighed, afhængigt af om inputtet er POS-tagget eller ej. Hvis inputtet ikke er POS-tagget, kan lemmatiseren fx ikke skelne mellem dør som udsagnsord og dør som navneord.

Lemmatiseren kan bruges med andre ordbøger end STO til at generere regler og til at lave opslag i, blot de indeholder oplysninger om ordform og lemma. Desuden kan lemmatiseren bruges til andre sprog end dansk, hvis sprogets regelmæssigt bøjede ord altovervejende bøjes i slutningen af ordene. Således er lemmatiseren egnet til fx engelsk og alle skandinaviske sprog.

Til sprog som tysk og nederlandsk har vi udviklet et nyt træningsalgoritme som ikke kun tager højde for suffikser, men også prefikser og infikser.

Lemmatisering er anvendelig til mange forskellige formål, fx til at samle alle former af samme lemma, beregne ordform- og lemmafrekvenser, og vise hvilke former af lemmaet der forekommer i teksten, hvilket er første skridt til indeksering af en tekst. Lemmatiseren kan også markere hvilke ord der findes eller ikke findes i ordbogen (STO eller brugerens egne), hvilket er nyttigt til identifikation af nye termer.

Man kan prøve lemmatiseren med følgende sprog. Den tredje kolonne angiver kilderne til de anvendte træningsdata.

Sprog Antal træningspar Kilde
dansk 594.000 STO
engelsk 87.000 CELEX
fransk 273.000 Lexique + Limsi
græsk 564.700 G. Petasis
islandsk 72.000 IFD
latin 106.000 Morfologik
nederlandsk 337.000 CELEX
polsk 3.443.000 Morfologik
russisk 3.045.000 Lemmatizer.org
tysk 318.000 CELEX

Udover de nævnte sprog er lemmatiseren blevet afprøvet med slovensk, norsk og svensk.

Mere information

Jongejan, Bart and Dalianis, Hercules: Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore : Association for Computational Linguistics, 2009. s. 145-153

Rapport om CST's lemmatiser

Kontakt: Bart Jongejan

Anskaffelse og brug

CST's lemmatiser er gratis til ikke-kommerciel brug. Se vores download-side.

For at gøre indlæsningen af lemmatiserens som regel meget store ordbog hurtigt nok, skal ordbogen være i et bestemt komprimeret binært format. Lemmatiseren har derfor, udover en modus til træning af regler og en modus til egentlig lemmatisering, også en modus til generering af den binære ordbog. Lemmatiseren benytter en fuldformsordliste til træning af lemmatiseringsreglerne og til opbygning af ordbogen i det binære format. Til dansk kan vi levere et udtræk fra STO specielt til det formål. Ordlisten omfatter 81 511 lemmaer og 594 357 ordforme. Hver linje i listen viser følgende oplysninger:

  • En ordform
  • Ordets grundform
  • Ordets ordklasse

Vi kan også levere færdige lemmatiseringsregler (alle platforme) og binære ordbøger til Windows og Linux. Med disse filer kan lemmatiseren lemmatisere dansk tekst og kan man springe træningsfasen over.

For nogle sprog (bl. a. dansk) leverer vi lemmatiseringsregler, og i nogle tilfælde også den binære ordbog. Se download-siden

For aftaler om brug af STO-data til træning af lemmatiseren og kommerciel brug af programmet:

Bart Jongejan
E-mail: bartj@hum.ku.dk


Blå linie
Njalsgade 140-142, bygn. 25, DK-2300 KBH S
Tlf: +45 35329090 - Fax: +45 35329089
Valid XHTML 1.0 Strict