CST's Part-Of-Speech tagger for dansk

POS-taggeren markerer hvert ord i en tekst med oplysninger om ordklasse og morfologiske træk, fx

"Denne side er om POS-taggeren"

Denne/PRON_DEMO side/N_INDEF_SING er/V_PRES om/PRÆP POS-taggeren/N_DEF_SING



POS-tags kan bruges i viderebehandling af teksten fx til at udtrække bestemte ordklasser (alle finitte verber, alle substantiver mm.), til at afgøre hvilken ordklasse et givent ord tilhører i en given position (fx jeg løber = verbum, en løber = substantiv), eller til at gruppere ordklasser i syntagmer (se CST's NP-genkender).

CST's POS-tagger er en udvidet udgave af Brill-taggeren, med tilføjelser til bedre håndtering af ord med store bogstaver i fx overskrifter.

Taggeren er trænet på Parole-korpusset så de regler den bruger til at beregne ordklassen for nye ord eller for homografer, afspejler sammensætningen og sprogbruget i Parole-korpusset (Læs mere i rapporten nedenfor). Under optimale forhold kan man opnå et resultat på op til 97% korrekt tagging.

Brills tagger er i princippet sprogneutral og kan derfor trænes til mange forskellige sprog. Det eneste krav er at man har et tagget træningskorpus på minimum 250.000 løbende ord til rådighed.


Mere information

Kort beskrivelse

Rapport "Træning og brug af Brill-taggeren på danske tekster"
Bemærk at de tags taggeren arbejder med nu, er en lidt anderledes end de tags der er beskrevet i rapporten. Se nedenstående "tagsæt".

Tagsæt

Vejledning til det danske Parole-korpus

Kontakt:  Dorte Haltrup Hansen
E-mail:    dorteh@hum.ku.dk


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Valid XHTML 1.0 Strict