|
CST's gentagelsestjekkerProgrammet finder gentagelser i en tekst vha. en statistisk metode. Antallet og typen af gentagelser i en tekst siger noget om i hvor høj grad teksten er egnet til maskinel behandling, fx maskinoversættelse. Ordpar og fraser der hyppigt gentages i en tekst er endvidere gode kandidater til flerordstermer eller domænespecifikke vendinger; programmet hjælper altså generelt med til at karakterisere en tekst på et statistisk grundlag. BaggrundProgrammet søger efter sekvenser af ord som forekommer flere gange. Disse sekvenser vægtes efter sekvensernes længde og hyppighed, men også efter hvor hyppige ordene der forekommer i sekvenserne, er. Når meget hyppige ord optræder sammen, tildeles det en lavere vægt end hvis sjældne ord optræder sammen. Det betyder fx at en sekvens som 'der er' tildeles en lav vægt selv om det optræder hyppigt. På denne måde prioriterer programmet sekvenser der er karakteristiske for teksten fremfor generelt hyppige sekvenser. Programmet kan bruges til flere forskellige formål, fx:
Mere informationUnderwood, N. L. & B. Jongejan:"Profiling Translation Projects - An Essential Part of Routing Translations". The 8th International Conference on Theoretical and Methodological Issues in Machine Translation (TMI 99), Chester, august 1999, Beregning af vægten af en sekvens. Kontakt: Bart Jongejan |
|
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
|