Tokenizer
Center for Sprogteknologi har udviklet en såkaldt ’Tokenizer’ (en præprocesser) i STO-projektet www.cst.dk/sto .
Formålet med Tokenizeren er at splitte en tekst op i tokens, dvs. hvert ord i teksten skrives på en linie for sig. Ud over at ord defineres som tokens, defineres også forkortelser, sætningsadskillere og html-koder som tokens.
Herudover konverterer programmet også tegnsæt fra dos- og html-format til Latin1, det format unix og XKwic bruger.
Tokenizeren er skabt som en præprocesser der forbereder råtekster til det format der benyttes i XKwic; men den bruges nu som præprocesser til såvel tagging, lemmatisering som til parsing.