Tokenizer

Tokenizer

Center for Sprogteknologi har udviklet en såkaldt ’Tokenizer’ (en præprocesser) i STO-projektet www.cst.dk/sto .

Formålet med Tokenizeren er at splitte en tekst op i tokens, dvs. hvert ord i teksten skrives på en linie for sig. Ud over at ord defineres som tokens, defineres også forkortelser, sætningsadskillere og html-koder som tokens.

Herudover konverterer programmet også tegnsæt fra dos- og html-format til Latin1, det format unix og XKwic bruger.

Tokenizeren er skabt som en præprocesser der forbereder råtekster til det format der benyttes i XKwic; men den bruges nu som præprocesser til såvel tagging, lemmatisering som til parsing.