SCARRIE

Korrekturlæsning for de skandinaviske sprog

SCARRIE - et EU-støttet forskningsprojekt, der som mål har haft at udvikle et automatisk korrekturlæsningsværktøj for hele Skandinaviens publikationsvirksomhed. Center for Sprogteknologi har været ansvarlig for udviklingen af korrekturlæsningsværktøjet for dansk. Projektet startede 1. december 1996 og blev afsluttet ultimo februar 1999.

Deltagende partnere i SCARRIE var Wordfinder Software AB, Svenska Dagbladet, Institutt for lingvistikk og litteraturvitenskab ved Bergens Universitet og Institutionen för lingvistik ved Uppsala Universitet. De to sidstnævnte institutioner var ansvarlige for udviklingen af henholdsvis det norske og svenske korrekturlæsningsværktøj. I udviklingen af det danske korrekturlæsningsværktøj (herefter det danske SCARRIE) indgik CST en samarbejdsaftale med to underleverandører: Institut for Almen og Anvendt Sprogvidenskab (IAAS) og Det Danske Sprog- og Litteraturselskab (DSL).

Et kerneelement i SCARRIE-projektet har været at sikre, at værktøjernes funktionalitet ville blive i overensstemmelse med slutbrugernes krav til systemet. For at imødekomme disse krav har CST i projektet indgået aftale med to slutbrugere, Berlingske Tidende og Munksgaards forlag. Begge disse slutbrugere har leveret domænespecifikke fejlkorpusser, som har været en vigtig videnkilde til specifikation af det danske systems lingvistiske dækningsgrad. I projektets slutfase har de to slutbrugere desuden været med til at evaluere og validere den udviklede prototypes funktionalitet.

SCARRIE-systemets overordnede systemdesign kan illustreres på følgende måde:
IMAGE

I det følgende vil der blive fokuseret på de mere innovative elementer i SCARRIE. Eller med andre ord hvad kan det danske SCARRIE, som de fleste andre stavekontrolsapplikationer ikke kan.

Genkendelse af frekvente proprier og andre system-ukendte ord

Den leksikalske dækningsgrad er dynamisk i SCARRIE-systemet. Hvis system-ukendte ord i en given input-tekst optræder tre eller flere gange inden for et givet interval af løbende ord, vil de således blive registreret som gyldige ord og lagt ind i det tekst-interne leksikon. Den ændrede status gør det muligt at rette stavefejl i ord, der ligger uden for den leksikalske dækningsgrad.

Kompositumanalyse

Med henblik på at skelne mellem gyldige og ikke-gyldige sammensætninger, er der i det danske SCARRIE udviklet en sammensætningsgrammatik, der udtrykker, hvordan danske ord kan kombineres. Grammatikken udnytter den information, der er lagt ind i ordbogens indgange om de fugeelementer, der skal være til stede for, at en given indgang kan indgå som første element i en sammensætning.

Idiomhåndtering

Baseret på en indsamlet liste over idiomer, som er lagt i en særskilt ordbog, behandles idiomer, der forekommer i en given input-tekst. Anvendelsen af en sådan idiomliste sikrer, at ord, hvis brug kun er korrekt i kombination med et andet ord (og derfor ikke er kodet i systemets leksikon), kan blive genkendt og registreret som gyldige. Et eksempel på dette er carte i idiomet a la carte.

Korrektion via fonemanalyse

Foruden ordkorrektion baseret på en standard grafemanalyse bruger det danske SCARRIE en fonetisk repræsentation af systemets ordbogsindgange til at udvælge det rigtige rettelsesforslag (for en nærmere beskrivelse af generering af den fonetiske repræsentation se MOLBÆK 1999).

Håndtering af syntaksbaserede stavefejl

Jævnfør figuren ovenfor processeres input-teksten (efter korrektion af isolerede ord) i et grammatiktjekmodul med henblik på identifikation af syntaksbaserede stavefejl.

I grammatikken analyseres potentielt fejlbelagte konstituenter som for eksempel nominalsyntagmer og verbalgrupper med henblik på at finde og om muligt rette kongruensfejl og forkert bøjede verbalformer (se PAGGIO 2000 for en mere udførlig beskrivelse af designet og funktionaliteten i det danske SCARRIEs grammatiktjekmodul).

Evaluering

I SCARRIE-projektet har evaluering haft høj prioritet. Den evaluering, der er blevet gennemført i SCARRIE, har taget afsæt i den metode, der er genereret i de EU-støttede projekter EAGLES og TEMAA, hvor man har udviklet formelle kriterier til evaluering af sprogteknologiske værktøjer som stavekontrol og grammatiktjek (se PAGGIO & MUSIC 1998 for en mere udførlig beskrivelse af evalueringsmetoden i det danske SCARRIE).

Selvom der ikke på forhånd i SCARRIE-projektet var defineret mål for, hvor godt det danske SCARRIE skulle fungere i henhold til den beskrevne evalueringsmetode, så er der blevet lavet en sammenlignende funktionalitetsanalyse mellem forskellige kommercielle korrekturlæsningsværktøjer og det danske SCARRIE.

Umiddelbart viste sammenligningen, at fejlmarkeringen i det danske SCARRIE var for upræcis. En nærmere analyse af de forkerte fejlmarkeringer afslørede imidlertid, at langt de fleste af disse "falske" markeringer havde at gøre med en uhensigtsmæssig håndtering af teknisk set ret banale fænomener - såsom genkendelse af akronymer, akronymer i sammensætninger og forkortelser. Alle fænomener, hvis håndtering ikke har haft høj prioritet i SCARRIE-projektet.

Hvad angår identifikation af syntaksbaserede fejltyper, så var det danske SCARRIE selvfølgelig de øvrige korrekturlæsningsværktøjer overlegen, idet disse applikationer ikke indholdt en grammatiktjekkomponent.

I betragtning af, at det danske SCARRIE er en forskningsprototype, så må systemets lingvistiske funktionalitet vurderes som særdeles lovende - og vil uden tvivl med en begrænset indsats kunne opnå en funktionalitet, der vil være væsentlig bedre end andre korrekturlæsningsværkøjer, som er tilgængelige på markedet.

Referencer

MOLBÆK, H.P. (1999): 'Grapheme-to-phoneme rules for the Danish component of the SCARRIE project', in: Lambda nr. 25. Datalingvistisk Forenings årsmøde 1998 i København.

PAGGIO, P. (2000): 'Spelling and grammar correction for Danish in SCARRIE', in: Proceedings of the 6th Applied Natural Language Processing Conference. Seattle, Washington, USA.

PAGGIO, P. & B. MUSIC (1998): 'Evaluation in the SCARRIE project', in: Proceedings of the First International Conference on Language Resources and Evaluation. Granada, Spain.


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090