|
CST's Part-Of-Speech tagger for danskPOS-taggeren markerer hvert ord i en tekst med oplysninger om ordklasse og morfologiske træk, fx "Denne side er om POS-taggeren" → Denne/PRON_DEMO side/N_INDEF_SING er/V_PRES om/PRÆP POS-taggeren/N_DEF_SING
POS-tags kan bruges i viderebehandling af teksten fx til at udtrække bestemte ordklasser (alle finitte verber, alle substantiver mm.), til at afgøre hvilken ordklasse et givent ord tilhører i en given position (fx jeg løber = verbum, en løber = substantiv), eller til at gruppere ordklasser i syntagmer (se CST's NP-genkender). CST's POS-tagger er en udvidet udgave af Brill-taggeren, med tilføjelser til bedre håndtering af ord med store bogstaver i fx overskrifter. Taggeren er trænet på Parole-korpusset så de regler den bruger til at beregne ordklassen for nye ord eller for homografer, afspejler sammensætningen og sprogbruget i Parole-korpusset (Læs mere i rapporten nedenfor). Under optimale forhold kan man opnå et resultat på op til 97% korrekt tagging. Brills tagger er i princippet sprogneutral og kan derfor trænes til mange forskellige sprog. Det eneste krav er at man har et tagget træningskorpus på minimum 250.000 løbende ord til rådighed. Mere informationRapport "Træning og brug af
Brill-taggeren på danske tekster" Vejledning til det danske Parole-korpus
Kontakt: Dorte Haltrup Hansen |
|
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
|