CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer

Institut for Nordiske Studier og Sprogvidenskab Humanistisk Fakultet Københavns Universitet English

CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer

Programmet forbereder tekst til viderebehandling med andre programmer. Ofte kræver programmer til tekstanalyse nemlig at inputteksten er gemt på en helt bestemt måde, hvilket næsten altid indebærer at tekstfilen skal være fri for styretegn til layout og typografi, skal have et bestemt tegnsæt, samt at teksten er opdelt i tokens og eventuelt også i segmenter (sætninger, overskrifter og listepunkter). Ved opdelingen af teksten i tokens (tokenisering) adskiller man ord, tal, interpunktionstegn mm. med et mellemrum og samler evt. flerordforbindelser (fx i forhold til) til et token.

Baggrund

Mange tekster foreligger ikke i det ønskede flade tekstformat og skal først konverteres. Eksempler er PDF-filer, HTML-filer og Microsoft Word-dokumenter.

Konvertering fra tekst-med-layout til flad tekst er meget mere end fjernelse af de tegn der styrer layoutet og typografien. I layoutet og typografien ligger værdifulde oplysninger om både tokens og sætninger. Fx slutter overskrifter normalt ikke med punktum. Det er udelukkende overgangen fra stor, fed skrift til normal skrift der kan fortælle hvor overskriften slutter. Og punkter ("bullets") i en liste kan i nogle tilfælde kun kendes ved at man kigger på både typografi og placering.

CST's tokeniserings- og segmenteringsprogram er udviklet til at konvertere fra RTF (Rich Text Format) til det ønskede flade tekstformat. Vi har valgt RTF fordi det er veldokumenteret og fordi dokumenter som er skabt i andre formater, såsom PDF, HTML og DOC, nemt kan konverteres til RTF uden tab af afgørende layout-informationer.

Programmet kan i øvrigt også tokenisere og segmentere flade tekster, men kvaliteten er typisk lidt mindre på grund af de manglende layout-oplysninger.

Kontakt: Bart Jongejan

Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S

Tilgængelighed