CST's gentagelsestjekker

Institut for Nordiske Studier og Sprogvidenskab Humanistisk Fakultet Københavns Universitet English

CST's gentagelsestjekker

Programmet finder gentagelser i en tekst vha. en statistisk metode. Antallet og typen af gentagelser i en tekst siger noget om i hvor høj grad teksten er egnet til maskinel behandling, fx maskinoversættelse. Ordpar og fraser der hyppigt gentages i en tekst er endvidere gode kandidater til flerordstermer eller domænespecifikke vendinger; programmet hjælper altså generelt med til at karakterisere en tekst på et statistisk grundlag.

Baggrund

Programmet søger efter sekvenser af ord som forekommer flere gange. Disse sekvenser vægtes efter sekvensernes længde og hyppighed, men også efter hvor hyppige ordene der forekommer i sekvenserne, er. Når meget hyppige ord optræder sammen, tildeles det en lavere vægt end hvis sjældne ord optræder sammen. Det betyder fx at en sekvens som 'der er' tildeles en lav vægt selv om det optræder hyppigt. På denne måde prioriterer programmet sekvenser der er karakteristiske for teksten fremfor generelt hyppige sekvenser.

Programmet kan bruges til flere forskellige formål, fx:

måling af egnethed af en tekst til automatisk oversættelse med oversættelseshukommelse,
komprimering af tekst,
opsporing af utilsigtede gentagelser af sætninger eller dele deraf,
opsporing af plagiat,
udtræk af termkandidater til oversættelseshukommelse (Translation Memory) eller søgemaskine.

Mere information

Underwood, N. L. & B. Jongejan:"Profiling Translation Projects - An Essential Part of Routing Translations". The 8th International Conference on Theoretical and Methodological Issues in Machine Translation (TMI 99), Chester, august 1999,

Beregning af vægten af en sekvens.

Kontakt: Bart Jongejan

Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S

Tilgængelighed