CST's Lemmatiser

CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. Fx

"Lemmatisering kan bruges til mange forskellige formål"

Lemmatisering/N_INDEF_SING/lemmatisering kan/V_PRES/kunne bruges/V_INF_PAS/bruge til/PRÆP/til mange/ADJ/mangen forskellige/ADJ/forskellig formål/N_INDEF_PLU/formål


Lemmatiseren beregner grundformen/opslagsformen af ord på baggrund af en række regler og en ordbog der begge afspejler forholdet mellem ordformer og grundformer.

Reglerne der er brugt i denne demo, er genereret på baggrund af STO-ordbasen . På grund af basens store omfang og høje kvalitet beregnes lemmaet med 94 -98 % nøjagtighed, afhængigt af om inputtet er POS-tagget eller ej. Hvis inputtet ikke er POS-tagget, kan lemmatiseren fx ikke skelne mellem dør som udsagnsord og dør som navneord.

Lemmatiseren kan bruges med andre ordbøger end STO til at generere regler og til at lave opslag i, blot de indeholder oplysninger om ordform og lemma. Desuden kan lemmatiseren bruges til andre sprog end dansk, hvis sprogets regelmæssigt bøjede ord altovervejende bøjes i slutningen af ordene. Således er lemmatiseren egnet til fx engelsk og alle skandinaviske sprog.

Til sprog som tysk og nederlandsk har vi udviklet et nyt træningsalgoritme som ikke kun tager højde for suffikser, men også prefikser og infikser.

Lemmatisering er anvendelig til mange forskellige formål, fx til at samle alle former af samme lemma, beregne ordform- og lemmafrekvenser, og vise hvilke former af lemmaet der forekommer i teksten, hvilket er første skridt til indeksering af en tekst. Lemmatiseren kan også markere hvilke ord der findes eller ikke findes i ordbogen (STO eller brugerens egne), hvilket er nyttigt til identifikation af nye termer.

Der findes lemmatiseringsregler til omkring 30 sprog. Se følgende tabel. Den tredje kolonne angiver kilderne til de anvendte træningsdata.

Sprogkode Sprog Antal træningspar Kilde
af Afrikaans 6 731 UD Afrikaans
ast Asturisk 108 728 https://github.com/michmech/lemmatization-lists
be Hviderussisk 224 3311 UD_Belarusian-HSE
bg Bulgarsk 55 198 MULTEXT-East free lexicons 4.0
ca Catalansk 583 924 https://github.com/michmech/lemmatization-lists
cs Tjekkisk 184 620 MULTEXT-East free lexicons 4.0
cy Walisisk 369 387 https://github.com/michmech/lemmatization-lists
da Dansk (nutids-) 583 397 STO
da Dansk (senmodern) 1 651 435 DSL Ordbog over det danske sprog
da Dansk (middelalder) 48 075 DSL middelaldertekster, Clara Kloster Guldkorpus
de Tysk 318.000 CELEX
el Græsk 564 700 G. Petasis
en Engelsk 86 992 CELEX
es Spansk 160 723 lachica
et Estisk 3 573 534 EstNLTK
fa Persisk 13 006 MULTEXT-East non-commercial lexicons 4.0
fo Færøsk 900 233 Føroyski bendingargrunnurin, far-ABLTagger
fr Fransk 273 000 Lexique + Limsi
ga Irsk 339 003 https://github.com/michmech/lemmatization-lists
gd Skotsk 63 160 https://github.com/michmech/lemmatization-lists
gml Middle Low German 107 020 Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200–1650)
gml Middelnedertysk 107 020 Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200–1650)
gl Galicisk 436 070 https://github.com/michmech/lemmatization-lists
gv Mansk 62 534 https://github.com/michmech/lemmatization-lists
hr Kroatisk 498 333 SETimes.HR+
hu Ungarsk 63 998 MULTEXT-East free lexicons 4.0
is Islandsk 2 874 175 Icelandic Centre for Language Technology
it Italiansk 413 196 morph-it
ka Georgian 28 076 Vladimír Benko
la Latin 1 116 121 Jan Šipoš
mk Makedonsk 1 323 572 MULTEXT-East non-commercial lexicons 4.0
nl Nederlandsk 341 779 CELEX
no Norsk bokmål 478 904 Scarrie Lexicon
pl Polsk 4 773 631 Morfologik
pt Portugisisk 912 617 LABELLEX
ro Romansk 428 191 MULTEXT-East free lexicons 4.0
ru Russisk 3 087 092 Lemmatizer.org
sk Slovakisk 935 541 MULTEXT-East free lexicons 4.0
sl Slovensk 207 044 MULTEXT-East free lexicons 4.0
sq Albansk 411 865 Albanian-POS
sr Serbisk 150 504 MULTEXT-East free lexicons 4.0
sv Svensk 572 136 Språkbanken
uk Ukrainsk 300 292 MULTEXT-East free lexicons 4.0

Besøg CST on-line tools eller Text Tonsoriun hvis du vil afprøve CSTlemma med disse sprog.

Mere information

Jongejan, Bart and Dalianis, Hercules: Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore : Association for Computational Linguistics, 2009. s. 145-153

Rapport om CST's lemmatiser

Kontakt: Bart Jongejan

Anskaffelse og brug

CST's lemmatiser distrbueres under GPL 2 licens. Se vores download-side .

For at gøre indlæsningen af lemmatiserens som regel meget store ordbog hurtigt nok, skal ordbogen være i et bestemt komprimeret binært format. Lemmatiseren har derfor, udover en modus til træning af regler og en modus til egentlig lemmatisering, også en modus til generering af den binære ordbog. Lemmatiseren benytter en fuldformsordliste til træning af lemmatiseringsreglerne og til opbygning af ordbogen i det binære format. Hver linje i listen skal vise følgende oplysninger:

  • En ordform
  • Ordets grundform
  • Ordets ordklasse

Vi kan også levere færdige lemmatiseringsregler (alle platforme) og binære ordbøger til Windows og Linux. Med disse filer kan lemmatiseren lemmatisere dansk tekst og kan man springe træningsfasen over.

Kontakt:

Bart Jongejan
E-mail: bartj@hum.ku.dk


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S