patrans

Maskinoversættelse fra engelsk til dansk

Gennem de sidste 13 år har Center for Sprogteknologi udviklet og vedligeholdt PaTrans - et fuldautomatisk engelsk til dansk maskinoversættelsessystem. Arbejdet er udført i henhold til en kontrakt indgået med oversættelsesfirmaet Lingtech A/S som med PaTrans oversætter mere end 3 millioner ord årligt. Teksttypen, der oversættes, er patentdokumenter - hovedsageligt inden for de tekniske emneområder kemi og mekanik.

PaTrans-systemets oversættelseskerne er baseret på den prototype, der blev udviklet under EU-kommissionens oversættelsesprojekt EUROTRA. I processen fra forskningsprototype til kommercielt produkt er PaTrans-systemets funktionalitet blevet videreudviklet på flere måder med henblik på at skræddersy systemet til kundens krav og behov. I det følgende beskrives kort de forskellige udvidelser og lingvistiske resurser, der er blevet udviklet i PaTrans-systemets levetid.

Automatisk førredigering

Inden den engelske input-tekst sendes gennem selve oversættelseskernen, behandles teksten automatisk i et teksthåndteringsmodul. Foruden at inddele teksten i oversættelsesenheder genkender dette modul standardiserede udtryk som tal, datoangivelser, referencer, patentdokumentnavne og kemiske formler. Disse udtryk tilpasses til det videre oversættelsesforløb ved at få tilskrevet relevante sproglige informationer.

Integrering af en ordklasse-tagger

For at forbedre oversættelseskvaliteten har CST integreret en regelbaseret ordklasse-tagger i PaTrans-systemet. Førend et input-dokument oversættes bliver alle dets tvetydige ord/tokens således via denne tagger entydiggjort og tilskrevet en værdi for, hvilken ordklasse det tilhører. Disambigueringen har særlig gunstig effekt for oversættelseskvaliteten i de tilfælde, hvor en sætning ikke kan analyseres af PaTrans-systemets grammatikker.

Oversættelseskernen

Til denne del af PaTrans-systemet har CST udviklet to typer af lingvistiske resurser - domæne og teksttypespecifikke grammatikker og generelle ordbøger. Grammatikmodulerne består hovedsageligt af grammatikregler for hvert af de to sprog på flere niveauer og et transfermodul, der udgør det strukturelle forbindelsesled mellem de to sprog. To monolinguale ordbøger for generelt sprog på henholdsvis kildesprog og målsprog er udviklet. Desuden er der udviklet en bilingual ordbog placeret i transfermodulet,hvor generelle ord i kildeproget bliver forbundet med det tilsvarende ord på målsproget.

Hvad angår udvikling af ordbaser af tekniske og områdespecifikke ord og udtryk har CST udviklet et termkodningsværktøj. Via denne kodningsfacilitet har Lingtech kunnet udvikle termbaser på en effektiv og overskuelig måde.

Foruden at forbedre PaTrans-systemets parser med hensyn til hastighed er funktionaliteten af denne del af systemet blevet udvidet med en såkaldt fejlredningsmekanisme, der bevirker, at der altid produceres et oversættelsesresultat selvom en input-sætning indeholder ord og/eller sproglige konstruktioner, der ikke er indeholdt i de lingvistiske resurser.

I tilfælde af at en given input-sætning ligger uden for grammatikkernes dækningsgrad, kan det bevirke, at ordstillingen i oversættelsesresultaterne tilnærmelsesvis gør sætningen uforståelig. Som en løsning på dette problem har CST implementeret et automatisk efterredigeringsværktøj. Det er et værktøj, der aktiveres efter maskinoversættelsen, hvis nogle på forhånd definerede betingelser er opfyldt.Den afgørende betingelse er, at den pågældende input-sætning ligger uden for grammatikkernes dækningsgrad. Er betingelserne opfyldt, vil der ud fra en på forhånd fastlagt algoritme blive foretaget en korrektion af ordrækkefølgen. Den vigtigste videnkilde til denne omflytning er den engelske input-sætnings ordrækkefølge.

Værktøj til redigering af input-dokumenter

Da ikke al førredigering kan udføres automatisk, og da Lingtech har haft behov for forskellige faciliteter til at lette termkodningsarbejdet, har CST implementeret en platform til førredigering af input-dokumenter. Dette arbejdsmiljø gør det muligt på en fleksibel måde at markere enheder, der ikke skal oversættes såsom titler på publikationer, der refereres til i patentdokumenterne.

Af hjælpefaciliteter til termkodningsarbejdet i redigeringsplatformen kan nævnes visning af konkordanslister, fremhævning af termer, der allerede er kodet, i hvilken termbase de ligger og endelig identifikation af ordsekvenser, der kandiderer til at blive kodet som flerordsenheder.

Format- og layouthåndtering

Input-formatet for tekster til oversættelseskernen er SGML* - et grænsefladeformat der er baseret på SGML (Standardised General Mark-up Language). I PaTrans-systemet kan der konverteres til dette udvekslingsformat til og fra tekstbehandlingsformaterne WordPerfect og Word2000.

Fremtidssikring - fra hp-unix til pc-platform

PaTrans-systemet har hidtil været udviklet og kørt under et operativsystem som kun kan installeres på Hewlett-Packard-maskiner. Med henblik på at fremtidssikre PaTrans-systemet og også at forbedre forholdet mellem prisen på hardware og dets ydeevne, besluttede Lingtech A/S i 2003 at investere i en overførsel af systemet til et pc-kørselsmiljø. Dette omfattende porteringsarbejde har involveret overførsel til et andet operativsystem (linux) og et andet orddatabasesystem (MySQL). I implementeringen af porteringen har det desuden været nødvendigt både at installere alternative tredjeparts-softwarepakker og tilpasse det allerede eksisterende tredjepartsprogrammel. Installation af porteringsresultatet hos Lingtech blev udført i juni 2004.

CST's kontakt

Seniorrådgiver Claus Povlsen
E-mail: claus@cst.dk

Andre relevante dokumenter

Automatic Post-editing in PaTrans
Semi-automatic Evaluation of PaTrans
PaWord


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090