CST's danske taggerTagging i traditionel forstand vil sige at tildele morfosyntaktiske kategorier til ord i en tekst. Brills taggerDen danske tagger bygger på den såkaldte Brill-tagger (Taggeren kan frit downloades fra: www.cs.jhu.edu/~brill) som er en automatisk tagger der bliver trænet på et allerede tagget korpus. Dette kan fx være et manuelt tagget korpus eller et semiautomatisk tagget korpus. Træningen foregår ved at taggeren automatisk lærer nogle regler hvorefter den er i stand til at tagge en ny og ukendt tekst. Træning af taggerenUnder træningen arbejdes med to versioner af samme korpus: den oprindelige taggede version samt en version hvor alle taggene er fjernet. Først tildeles ordene i det "nøgne" korpus et tilfældigt tag. Derefter ændres taggene ved hjælp af transformationer på en måde så den transformationsregel der får det "nøgne" korpus til at nærme sig det oprindelige, får en højere vægtning, mens de regler der får korpus til at fjerne sig fra det oprindelige, bliver smidt væk. På den måde opbygges lister af ordnede regler: leksikalske regler og kontekstuelle regler. De leksikalske regler bruges til at analysere ukendte ord; mens de kontekstuelle regler bruges til at fjerne syntaktisk flertydighed. En leksikalsk regel kan fx se således ud: ede hassuf 3 V_PAST 316.266946778711 hvilket betyder: "Hvis ordet har suffikset -ede skal tagget (hvad det end er)
ændres til V_PAST". En kontekstuel regel kan se således ud: V_PAST V_INF PREVWD at hvilket betyder: "Ændr V_PAST til V_INF hvis det foregående ord var
at" PAROLE-korpussetTaggeren er trænet på den delmængde at det danske PAROLE-korpus der er morfosyntaktisk annoteret, dvs. på 250.000 løbende tekstord. Det danske PAROLE-korpus' morfosyntaktiske annotation består af 151 forskellige tags der hver indeholder information om ordformens ordklasse og morfologiske træk. Før træningen er tagsættet dog reduceret til 30 forskellige tags, hovedsageligt bestående af oplysninger om ordklasserne. Grunden til denne reduktion er en formodning om at et mindre tagsæt vil give en bedre analyse, dvs. en mindre fejlprocent. Generelt er fejlprocenten da også meget lille, nemlig på ca. 4%.
En stump tagget tekst ser fx således ud: Flere/ADJ tusinde/N_INDEF_PLU familier/N_INDEF_PLU i/PRÆP det/PRON_DEMO centrale/ADJ Århus*CITYNAMEX/EGEN kan/V_PRES slet/ADV ikke/ADV se/V_INF Tv-2/FORM_DEMO centrale/ADJ Århus/EGEN kan/V_PRES slet/ADV ikke/ADV se/V_INF TV-2/FORK ./TEGN |
|
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
|