|
CST's LemmatiserCST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. Fx "Lemmatisering kan bruges til mange forskellige formål" → Lemmatisering/N_INDEF_SING/lemmatisering kan/V_PRES/kunne bruges/V_INF_PAS/bruge til/PRÆP/til mange/ADJ/mangen forskellige/ADJ/forskellig formål/N_INDEF_PLU/formål Lemmatiseren beregner grundformen/opslagsformen af ord på baggrund af en række regler og en ordbog der begge afspejler forholdet mellem ordformer og grundformer. Reglerne der er brugt i denne demo, er genereret på baggrund af STO-ordbasen . På grund af basens store omfang og høje kvalitet beregnes lemmaet med 94 -98 % nøjagtighed, afhængigt af om inputtet er POS-tagget eller ej. Hvis inputtet ikke er POS-tagget, kan lemmatiseren fx ikke skelne mellem dør som udsagnsord og dør som navneord. Lemmatiseren kan bruges med andre ordbøger end STO til at generere regler og til at lave opslag i, blot de indeholder oplysninger om ordform og lemma. Desuden kan lemmatiseren bruges til andre sprog end dansk, hvis sprogets regelmæssigt bøjede ord altovervejende bøjes i slutningen af ordene. Således er lemmatiseren egnet til fx engelsk og alle skandinaviske sprog. Til sprog som tysk og nederlandsk har vi udviklet et nyt træningsalgoritme som ikke kun tager højde for suffikser, men også prefikser og infikser. Lemmatisering er anvendelig til mange forskellige formål, fx til at samle alle former af samme lemma, beregne ordform- og lemmafrekvenser, og vise hvilke former af lemmaet der forekommer i teksten, hvilket er første skridt til indeksering af en tekst. Lemmatiseren kan også markere hvilke ord der findes eller ikke findes i ordbogen (STO eller brugerens egne), hvilket er nyttigt til identifikation af nye termer. Der findes lemmatiseringsregler til omkring 30 sprog. Se følgende tabel. Den tredje kolonne angiver kilderne til de anvendte træningsdata. Besøg CST on-line tools eller Text Tonsoriun hvis du vil afprøve CSTlemma med disse sprog. Mere informationJongejan, Bart and Dalianis, Hercules: Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore : Association for Computational Linguistics, 2009. s. 145-153 Kontakt: Bart Jongejan Anskaffelse og brugCST's lemmatiser distrbueres under GPL 2 licens. Se vores download-side . For at gøre indlæsningen af lemmatiserens som regel meget store ordbog hurtigt nok, skal ordbogen være i et bestemt komprimeret binært format. Lemmatiseren har derfor, udover en modus til træning af regler og en modus til egentlig lemmatisering, også en modus til generering af den binære ordbog. Lemmatiseren benytter en fuldformsordliste til træning af lemmatiseringsreglerne og til opbygning af ordbogen i det binære format. Hver linje i listen skal vise følgende oplysninger:
Vi kan også levere færdige lemmatiseringsregler (alle platforme) og binære ordbøger til Windows og Linux. Med disse filer kan lemmatiseren lemmatisere dansk tekst og kan man springe træningsfasen over. Kontakt:
Bart Jongejan
|
|
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
|