En stor dansk sprogteknologisk ordbog - et nationalt projekt

Center for Sprogteknologi (CST) er i gang med planlægningen af en stor dansk sprogteknologisk ordbog (STO). Da projektet givetvis kan påregne interesse i det leksikografiske miljø, vil vi nedenfor fremlægge de væsentligste punkter i disse planer og berette om de forberedende skridt der er taget indtil nu. Indlægget er tænkt som en første, bred orientering om initiativet og vil blive fulgt op ved senere lejlighed med en mere detaljeret redegørelse.

Hvad er en sprogteknologisk ordbog?

En sprogteknologisk ordbog er en samling organiserede leksikalske data lagret på et elektronisk medium, som regel i en databasestruktur, og beregnet til sprogteknologisk (maskinel) anvendelse. Maskinel anvendelse stiller særlige krav til den leksikografiske beskrivelse mht. indhold og format og især mht. detaljeringsgrad.

Den planlagte sprogteknologiske ordbog vil være et basisprodukt der indeholder systematisk beskrivelse af leksikalske enheders morfologiske og syntaktiske egenskaber og forsynes med en detaljeret dokumentation af ordbogens lingvistiske og leksikografiske principper. Derved sikres at ordbogens materiale også kan udnyttes i andre end sprogteknologiske sammenhænge, eksempelvis som basis for andre leksikografiske produkter.

Projektets relevans, baggrund og perspektiver

Udarbejdelsen af en stor sprogteknologisk ordbog har to hovedformål. For det første er den nødvendig for udviklingen af de allerfleste avancerede sprogteknologiske anvendelsesprogrammer; for det andet vil den også være en uvurderlig ressource i forskningssammenhæng.

Forskningsrelaterede aspekter

Udviklingsarbejdet indebærer i forbindelse med etableringen af strukturen for ordbogen nogen leksikografisk forskning bl.a. inden for syntaks og semantik som i hovedtræk vil være afsluttet inden det egentlige kodningsarbejde påbegyndes. Der vil i et vist omfang også være behov for forskning afledt af selve ordbogsarbejdet især fordi dette er det første store danske ordbogsprojekt hvor datalingvistiske aspekter og leksikografiske metoder søges forenet i skabelsen af et sprogteknologisk basisprodukt. Disse områder vil givetvis også skabe en udmærket baggrund for specialer og studenterprojekter.

På et mere fremskredent stadium vil ordbogen imidlertid også have forsknings- mæssig betydning som en ressource i sig selv. Ordbogen vil ikke blot omfatte leksemer og deres beskrivelse, men i meget høj grad også deres kombinatorik. Der er altså tale om et leksikografisk projekt der i sig selv er syntaktisk orienteret og som giver mulighed for datamatiske syntaktiske analyser i stort omfang, når det er færdigt.

Anvendelsesorienterede aspekter

Sprogteknologiske produkter omfatter alle former for programmer, der tjener til forbedring og effektivisering af menneskers arbejde med tekster i naturligt sprog: stave- og grammatikkontrol, oversættelse, undervisningsprogrammer osv. I alle sådanne produkter indgår en ordbog. Fraværet af en stor ordbog gør derfor udviklingsopgaver af denne type næsten uoverkommelige, både rent arbejdsmæssigt og økonomisk.

Det er vigtigt at udvikle forskellige slags sprogteknologiske værktøjer af høj kvalitet også for dansk, da dette vil bidrage til at sproget bliver brugt i alle dets funktioner i både erhvervs- og kulturlivet samt i den offentlige sektor. Det er således indlysende, at udover den forskningsmæssige interesse har udvikling af sprogteknologien også stor samfundsmæssig og kulturel betydning.

Denne erkendelse var baggrunden for, at Teknologinævnet i 1994 lod udarbejde en rapport om dansk sprogteknologi. En af konklusionerne var at udviklingen af en stor sprogteknologisk ordbog er en meget stor og kompleks opgave, som markedet på ingen måde selv kan løfte. Derfor foreslog rapporten, at Center for Sprogteknologi skulle tage initiativ til at igangsætte et ordbogsprojekt.

Projektoplægget har fået positiv modtagelse og vurdering hos både Forskningsrådene, Forskningsministeriet, Det Danske Sprog- og Litteraturselskab og hos forlag, samt ikke mindst hos andre relevante institutioner.

Projektets organisering og løbetid

Projektet bør være et samarbejdsprojekt med mange partnere. Center for Sprogteknologi har taget initiativ til projektet og forventer at udføre en betydelig del af arbejdet, herunder at styre projektet. Andre medvirkende vil være datalingvistiske og leksikografiske miljøer, forlag mv. Fordelene ved et samarbejdsprojekt er dels, set fra projektets side, at det giver adgang til at drage nytte af flere menneskers og miljøers ekspertise, og dels, set fra miljøernes side, at den inspiration der udgår fra projektet vil kunne bidrage til flere institutioners forskning. CST er gået i gang med de indledende dele af projektet, idet opsparede reserver fra tidligere år anvendes hertil. Løbetiden anslås til 6-7 år; men dette kan først vurderes helt konkret, når de igangværende undersøgelser vedr. samarbejde, genbrug af eksisterende ordbogsdata, programmel mv. er gennemført. Projektplanen lægger op til at brugbare dele af ordbogen kan frigives efterhånden. Her tænkes på mindre udsnit af ordbogen, fx en ordklasse, ordforrådet fra et afgrænset fagområde eller et udsnit af ordbogen med kun basislingvistiske oplysninger e.l.

Ordbogens indhold og format

Størrelse og ordforråd

Ordbogens størrelse er planlagt til ca. 100.000 opslagsenheder, således at der i denne optælling medtages lemmata og sublemmata. Ordforrådet i STO bliver sammensat af almensproglige ord og ord der optræder både i almensproglige og fagsproglige tekster, samt ord der optræder i tekster fra flere fagområder. De sidstnævnte typer, dvs. de såkaldte gråzoneord, fællesord eller almene fagord, relaterer sig i større eller mindre grad til fagsprog. Der er udbredt enighed om at sådanne kategoriseringer af ord ikke kan anses for at være absolutte men at de altid er afhængige af et bestemt praktisk formål. Det valgte ordforråd bliver beskrevet i leksikografisk-lingvistisk henseende på en ensartet måde uanset hvilken type af ord det drejer sig om.

Ved almensproglige ord forstår vi det ordstof der anvendes i nutidige dagligdags kommunikationssituationer. Ved udvælgelsen af lemmata går vi ud fra en kombi- nation af nogle grundlæggende kriterier mht. kilde, frekvens og relevans som vil blive forfinet trinvist. På et meget basalt plan kan det f.eks. fastlægges at det almensproglige ordstof skal tilhøre standardsprogligt skriftsprog og den centrale del af ordforrådet (baseret på frekvensundersøgelser i korpus mm.) og at det skal have relevans i forhold til STOs applikationsområder.

En foreløbig dækningsmæssig sammenligning mellem Retskrivningsordbogens ordforråd og det ordforråd der skønnes relevant for STO viser at der er sandsyn- lighed for at ca. 40% (40.000) af STOs opslagsord vil falde inden for og ca. 60% uden for Retskrivningsordbogens dækning.

Der kan ikke drages en skarp grænse mellem de almensproglige og fagsproglige dele af sproget da al fagsproglig kommunikation også indeholder almensproglige ord og udtryk samtidig med at almensproget udvides løbende med ord og udtryk fra forskellige fagsprog fx med almen udbredelse af kendskabet til bestemte fagområder. Et eksempel er informationsteknologiens indtog i dagspressens spalter der medfører at fagord som computer, tekstbehandling, printer ikke mere er forbeholdt fagsproglig kommunikation; de opfattes snarere som tekniske eller fagrelaterede udtryk brugt i dagligdags kommunikation.

Det fagsproglige ordstof skal selekteres fra nutidigt, fagrelateret skriftsprog og fra flere udvalgte fagområder med sprogteknologisk relevans og under hensyntagen til forskellige faktorer såsom frekvens i almen- og i fagsproglige tekster, tekstens type og dens fagsproglighedsgrad osv. Der skal indsamles relevante fagsproglige tekster og eksisterende, genbrugelige leksikografiske beskrivelser.

Leksikalske oplysninger

Udvælgelsen og struktureringen af oplysningstyper vil i høj grad ske på grundlag af eksisterende praksisser inden for det sprogteknologiske område. I denne forbindelse har EU-projektet PAROLE en særlig betydning, da der inden for rammerne af dette projekt produceres en sprogteknologisk ordbog med leksikalske beskrivelser af 20.000 lemmata som CST er ansvarlig for. Det er tanken at der skal bygges videre på denne ordbog (herom også senere).

Den traditionelle måde er at opdele leksikalske oplysninger efter deres indhold i morfologi (inkl. morfosyntaks), syntaks og semantik svarende til lingvistikkens discipliner. I STO vil oplysningerne desuden blive klassificeret og struktureret efter lingvistisk niveau i basisoplysninger (fx ordklasse, bøjning, syntaktisk valens, semantiske roller) og avancerede oplysninger (fx derivation, kontroltype, 'raising', læsningsopdelinger).

Arbejdsmetode - et par nøgleord

Genbrug

En af hjørnestenene i projektet er genbrug af eksisterende ordbogsdata og korpora. Det er klart, at allerede eksisterende datamatiske ordbogsdata skal genbruges i videst muligt omfang. Disse er imidlertid ganske begrænsede og vil i vidt omfang allerede være indgået i PAROLE-ordbogen. Hertil kommer muligheden for at genbruge traditionelle ordbøger. Selv om der er store forskelle på, hvordan ordbøger formuleres for mennesker og for maskiner, så er der dog også en del væsentlige fællestræk. Som eksempler på ordbogsarbejde som kan være af interesse for STO kan nævnes Den Danske Ordbog, der er under udarbejdelse under Det Danske Sprog- og Litteraturselskab, et delprojekt om valens under det SHF-støttede projekt om Udforskning af Dansk Ordforråd og Grammatik (UDOG) på Odense Universitet, samt de store ordbogsarbejder der udføres i det danske leksikografiske miljø og på de danske forlag. Det skal tilføjes at ikke kun leksikalske beskrivelser, men også korpussamlinger mv. vil være af interesse.

Vi er gået i gang med henvendelser til en del datalingvistiske og leksikografiske miljøer og til forlag og vil fortsætte hermed. Henvendelserne er i det store og hele blevet besvaret positivt; men der er behov for en lidt større afklaring af projektet før man kan indgå faste aftaler.

Selv med en større afklaring omkring projektets status må det dog påregnes at forhandlinger om betingelser for deltagelse, herunder rettigheder i forhold til den færdige ordbog, vil være ret tidskrævende. Rettighedsproblematikken er vanskelig, da der ikke findes ret mange love eller regler på dette område, der direkte dækker vore behov.

Model

Ordbogsarbejdet bliver udført vha. elektroniske værktøjer der er bygget til at håndtere en bestemt beskrivelsesmodel. I denne model struktureres de klassificerede oplysninger på tre niveauer mht. deres lingvistiske indhold (morfologi, syntaks og semantik). Modellen muliggør desuden opdeling af oplysningerne mht. lingvistisk niveau, som omtalt ovenfor, i basis og avanceret beskrivelse.

Der er en række indlysende fordele ved at strukturere ordbogen vha. denne model. Ordbogen kan udarbejdes og tages i brug etapevist, fx kan basisniveauet afsluttes før det avancerede niveau; morfologien kan færdiggøres før syntaksen; der kan laves en prioriteringsrækkefølge for fag/emneområder osv. En anden fordel er at det bliver enklere at uddrage netop den delmængde af oplysninger som kræves for bestemte formål eller anvendelser. På denne måde bliver ordbogen fleksibel og dermed anvendelig til flere forskellige formål.

Afsluttende bemærkninger

Et så omfattende projekt som vi har skitseret ovenfor kræver naturligvis nøje planlægning. I dette oplæg har vi beskrevet nogle udvalgte aspekter medens andre, ligeså relevante, ikke kunne medtages her. Vi vil derfor gerne fremlægge projektet for LEDAs medlemmer på et medlemsmøde i løbet af efteråret hvor vi vil fortælle om flere aspekter og gå mere i dybden med enkelte, leksikografisk interessante punkter. Samtidig bliver der lejlighed til at få besvaret spørgsmål om projektet, selve ordbogen og samarbejdsmulighederne.

Anna Braasch, Bente Maegaard, Bolette Sandford Pedersen


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090
Valid HTML 4.01 Strict