CST's Lemmatiser

Institut for Nordiske Studier og Sprogvidenskab Humanistisk Fakultet Københavns Universitet English

CST's Lemmatiser

CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. Fx

"Lemmatisering kan bruges til mange forskellige formål"

→

Lemmatisering/N_INDEF_SING/lemmatisering kan/V_PRES/kunne bruges/V_INF_PAS/bruge til/PRÆP/til mange/ADJ/mangen forskellige/ADJ/forskellig formål/N_INDEF_PLU/formål

Lemmatiseren beregner grundformen/opslagsformen af ord på baggrund af en række regler og en ordbog der begge afspejler forholdet mellem ordformer og grundformer.

Reglerne der er brugt i denne demo, er genereret på baggrund af STO-ordbasen . På grund af basens store omfang og høje kvalitet beregnes lemmaet med 94 -98 % nøjagtighed, afhængigt af om inputtet er POS-tagget eller ej. Hvis inputtet ikke er POS-tagget, kan lemmatiseren fx ikke skelne mellem dør som udsagnsord og dør som navneord.

Lemmatiseren kan bruges med andre ordbøger end STO til at generere regler og til at lave opslag i, blot de indeholder oplysninger om ordform og lemma. Desuden kan lemmatiseren bruges til andre sprog end dansk, hvis sprogets regelmæssigt bøjede ord altovervejende bøjes i slutningen af ordene. Således er lemmatiseren egnet til fx engelsk og alle skandinaviske sprog.

Til sprog som tysk og nederlandsk har vi udviklet et nyt træningsalgoritme som ikke kun tager højde for suffikser, men også prefikser og infikser.

Lemmatisering er anvendelig til mange forskellige formål, fx til at samle alle former af samme lemma, beregne ordform- og lemmafrekvenser, og vise hvilke former af lemmaet der forekommer i teksten, hvilket er første skridt til indeksering af en tekst. Lemmatiseren kan også markere hvilke ord der findes eller ikke findes i ordbogen (STO eller brugerens egne), hvilket er nyttigt til identifikation af nye termer.

Der findes lemmatiseringsregler til omkring 30 sprog. Se følgende tabel. Den tredje kolonne angiver kilderne til de anvendte træningsdata.

Sprogkode	Sprog	Antal træningspar	Kilde
af	Afrikaans	6 731	UD Afrikaans
ast	Asturisk	108 728	https://github.com/michmech/lemmatization-lists
be	Hviderussisk	224 3311	UD_Belarusian-HSE
bg	Bulgarsk	55 198	MULTEXT-East free lexicons 4.0
ca	Catalansk	583 924	https://github.com/michmech/lemmatization-lists
cs	Tjekkisk	184 620	MULTEXT-East free lexicons 4.0
cy	Walisisk	369 387	https://github.com/michmech/lemmatization-lists
da	Dansk (nutids-)	583 397	STO
da	Dansk (senmodern)	1 651 435	DSL Ordbog over det danske sprog
da	Dansk (middelalder)	48 075	DSL middelaldertekster, Clara Kloster Guldkorpus
de	Tysk	318.000	CELEX
el	Græsk	564 700	G. Petasis
en	Engelsk	86 992	CELEX
es	Spansk	160 723	lachica
et	Estisk	3 573 534	EstNLTK
fa	Persisk	13 006	MULTEXT-East non-commercial lexicons 4.0
fo	Færøsk	900 233	Føroyski bendingargrunnurin, far-ABLTagger
fr	Fransk	273 000	Lexique + Limsi
ga	Irsk	339 003	https://github.com/michmech/lemmatization-lists
gd	Skotsk	63 160	https://github.com/michmech/lemmatization-lists
gml	Middelnedertysk	107 020	Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200–1650)
gl	Galicisk	436 070	https://github.com/michmech/lemmatization-lists
gv	Mansk	62 534	https://github.com/michmech/lemmatization-lists
hr	Kroatisk	498 333	SETimes.HR+
hu	Ungarsk	63 998	MULTEXT-East free lexicons 4.0
is	Islandsk	2 874 175	Icelandic Centre for Language Technology
it	Italiansk	413 196	morph-it
ka	Georgian	28 076	Vladimír Benko
la	Latin	1 116 121	Jan Šipoš
mk	Makedonsk	1 323 572	MULTEXT-East non-commercial lexicons 4.0
nl	Nederlandsk	341 779	CELEX
no	Norsk bokmål	478 904	Scarrie Lexicon
pl	Polsk	4 773 631	Morfologik
pt	Portugisisk	912 617	LABELLEX
ro	Romansk	428 191	MULTEXT-East free lexicons 4.0
ru	Russisk	3 087 092	Lemmatizer.org
sk	Slovakisk	935 541	MULTEXT-East free lexicons 4.0
sl	Slovensk	207 044	MULTEXT-East free lexicons 4.0
sq	Albansk	411 865	Albanian-POS
sr	Serbisk	150 504	MULTEXT-East free lexicons 4.0
sv	Svensk	572 136	Språkbanken
uk	Ukrainsk	300 292	MULTEXT-East free lexicons 4.0

Besøg CST on-line tools eller Text Tonsoriun hvis du vil afprøve CSTlemma med disse sprog.

Mere information

Jongejan, Bart and Dalianis, Hercules: Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore : Association for Computational Linguistics, 2009. s. 145-153

Rapport om CST's lemmatiser

Kontakt: Bart Jongejan

Anskaffelse og brug

CST's lemmatiser distrbueres under GPL 2 licens. Se vores download-side .

For at gøre indlæsningen af lemmatiserens som regel meget store ordbog hurtigt nok, skal ordbogen være i et bestemt komprimeret binært format. Lemmatiseren har derfor, udover en modus til træning af regler og en modus til egentlig lemmatisering, også en modus til generering af den binære ordbog. Lemmatiseren benytter en fuldformsordliste til træning af lemmatiseringsreglerne og til opbygning af ordbogen i det binære format. Hver linje i listen skal vise følgende oplysninger:

En ordform
Ordets grundform
Ordets ordklasse

Vi kan også levere færdige lemmatiseringsregler (alle platforme) og binære ordbøger til Windows og Linux. Med disse filer kan lemmatiseren lemmatisere dansk tekst og kan man springe træningsfasen over.

Kontakt:

Bart Jongejan
E-mail: bartj@hum.ku.dk

Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S

Tilgængelighed