SPINN
SProgteknologi og INformationssøgning i Norden
- et netværk om harmonisering og sammenkædning af sprogteknologiske ordbaser med særligt henblik på informationssøgning
Opbygningen af tværsproglige, sprogteknologiske
ressourcer
Flere projekter og initiativer i Europa afspejler vigtigheden af at
harmonisere og standardisere semantiske ordbogsdata til brug for sprogteknologiske
formål. Her kan nævnes EAGLES (Expert Advisory Group on Language
Engineering Standards) som har nedsat en særlig interessegruppe omkring
harmonisering af ordbogsdata: The EAGLES Lexicon group. Det svenske medlem
i ledelsesgruppen har deltaget i dette arbejde, hvor man bl.a. har (i)
udarbejdet en oversigt over maskinlæsbare leksika, leksikalske
databaser, ordnet og ontologier, (ii) specificeret en række krav
som man bør stille til leksikalsk-semantiske ressourcer i forskellige
sprogteknologiske sammenhænge som f.eks. maskinoversættelse,
informationssøgning, automatisk resumering samt sproggenerering,
og endelig (iii) udarbejdet anbefalinger mhp. leksikalsk-semantisk ordbogsarbejde
. Også det seneste 'åbent hus'-arrangement i Luxembourg i september
2000 i forbindelse med EU's femte rammeprogram (Key action III "Multimedia
Contents and Tools") understregede behovet for udbygningen af flersproglige
semantiske ressourcer til informationssøgning.
EU-projektet EuroWordNet (EWN) skaber også en vigtig basis for
dette netværk eftersom det fokuserer på formalisering og flersproglig
sammenkædning af leksikalsk-semantiske data. Projektet gik ud på
at udarbejde leksikalske net for hollandsk, spansk, italiensk og engelsk
og i noget mindre målestok også for fransk, tysk, tjekkisk
og estisk. De såkaldte 'synsets' - synonymigrupper - udgør
sammen med et elaboreret sæt af semantiske relationer og en ontologisk
karakteristik kernen i ordnetsbeskrivelserne (se Alonge et al. 1998). Ordnettene
for de forskellige sprog sammenkædes via et metasprog, det såkaldte
Inter-Lingual-Index, og det er tanken at genbruge flere elementer af dette
sammenkædningsprincip i netværket. I tilknytning til EWN bør
nævnes Svensk Ordnät - et computerbaseret leksikon for svensk
(Willners 1997) hvor også synonymigrupper udgør den grundlæggende
beskrivningskategori. Flertydige ord indgår således i flere
synonymigrupper som f.eks. slita som indgår i følgende synonymigrupper
{slita, rycka} (slita i betydningen 'rive af', 'sønderrive') {slita,
nöta} (slita i procesbetydningen 'slide'), {slita, gno, knoga} (slita
i betydningen 'ase', 'arbejde hårdt').
Det primære incitament til at iværksætte netværket
er dog EU-projektet SIMPLE (Semantic Information for Multifunctional, Plurilingual
Lexica) , se også (Pedersen & Keson 1999, Pedersen & Nimb
2000, Kokkinakis et al. 2000 samt Lenci et al. 2000 1 og 2). I dette projekt
har man skabt forudsætningerne for at udarbejde semantiske, sprogteknologiske
ordbøger for 12 sprog med hver især 10.000 ordbetydninger:
7000 substantiver, 2000 verber og 1000 adjektiver. For hver ordbetydning
kan angives informationer af typen (i) begrebstype (semantisk klasse) hentet
fra SIMPLE-ontologien som består af 139 hierarkisk ordnede begreber,
(ii) domæne, (iii) betydningsdefinition, (iv) korpuseksempel, (v)
argumentstruktur (semantisk valens), (vi) selektionsrestriktioner, altså
hvilke semantiske krav der stilles til ordets argumenter (f.eks. humant
subjekt), (vii) semantiske relationer og semantiske træk baseret
på Pustejovskys såkaldte Qualiastruktur (Pustejovsky 1995),
samt endelig synonymi-, polysemi- og kollokationsrelationer. Det faktum
at alle sproggrupperne har anvendt de samme specifikationer for beskrivelsen,
støtter tanken om en senere, tværsproglig sammenkædning
af disse. For at sikre at der findes en kerne af fælles ordforråd
i projektet, har man desuden udvalgt 1000 kernebegreber som for dansk og
svensk har udkrystalliseret sig i ca. 1300 ordbetydninger. Udover dette
fælles ordforråd kender vi ikke på nuværende tidspunkt
fællesmængden af betydninger i de to ordbøger men vi
skønner at ca. halvdelen af betydningerne (ca. 5000) er beskrevet
i begge ordbøger idet ordforrådet er udvalgt på basis
af hyppighedskriterier på begge sprog.
Hvad angår det tværsproglige aspekt mellem de skandinaviske
sprog ønsker vi at eksperimentere med at anvende engelsk som metasprog.
Der er flere grunde til dette valg. Vores konkrete, lingvistiske begrundelse
er at den meget stringente systematik der er anvendt for betydningsopdeling
i ordbogen The New Oxford Dictionary of English (NODE), er teoretisk interessant
også set i et traditionelt leksikografisk perspektiv. Således
mener vi at NODE's ordbogsdata vil udgøre et velegnet og stringent
metasprog for projektet. Hvor SIMPLE-projektet fokuserer på hvorledes
ordenes interne semantiske struktur kan beskrives formelt i datamatiske
termer og i forhold til en formel ontologi, udgør NODE en værdifuld
ressource på et andet plan fordi man her har udviklet en brugbar
metode til identificering af grundbetydninger, udvidede betydninger og
specialiserede betydninger. Dette aspekt - at ordenes betydninger ikke
bare kan beskrives uafhængigt af hinanden, men at de indeholder en
indbygget systematik og dynamik- er først for nylig kommet i fokus
inden for den sprogteknologiske forskning. Den er imidlertid en forudsætning
for at de sprogteknologiske værktøjer kan håndtere sproglige
problemstillinger på en tilfredsstillende måde. En anden
mere teknologisk begrundelse for at vælge engelsk som metasprog er
at ordbogsnetværket i så fald vil være direkte anvendeligt
i forbindelse med teknologioverførsel fra engelsk til de nordiske
sprog. Især når det drejer sig som mindre udbredte sprog som
de nordiske, er dette aspekt væsentligt idet udviklingen af flersproglige
ordbogsressourcer er en bekostelig opgave.
Sammenkædningen af leksemer indbefatter to delfaser som man kunne
kalde hhv. metasammenkædning og intern sammenkædning. Metasammensammenkædning
foregår først og angår den parvise sammenkædning
mellem hvert af de nordiske sprog på den ene side og NODE på
den anden side. Derefter kommer den interne sammenkædning som med
udgangspunkt i den information der er givet ved metasammenkædningen,
etablerer sammenkædningen mellem de nordiske sprog. Faserne illustreres
nedenfor:
Udover de allerede nævnte ressourcer er det naturligvis også
vigtigt at trække på de yderligere leksikalske ressourcer der
findes nationalt i Danmark, Sverige og Norge. Her står svensk stærkest
idet man for svensk har Göteborgs leksikalske database, GLDB (oprindeligt
udarbejdet 1978-86), og dens udvidelser i hhv. GLDB/NEO (Nationalencyklopediens
ordbog) og GLDB/SDB (semantisk database) (se bl.a. Järborg 1989).
GLDB/NEO indeholder 68.000 hovedbetydninger og 26.000 underbetydninger
med stringente definitioner samt information om synonymi, kohyponymi, antonymi,
hyperonymi og endelig selektionsrestriktioner. Endvidere tilfører
terminologiske domæner en yderligere dimension til beskrivelserne.
For dansk udgør Den Danske Ordbog (Det Danske Sprog- og Litteraturselskab)
som er under udvikling i øjeblikket, den væsentligste ressource
idet der også her er tale om en stringent model for betydningsopdeling
der lægger sig tæt op ad NODE's, samt en korpusbaseret tilgang
til ordforrådet der sikrer en god sammenhæng mellem ordbog
og faktisk ordbrug. Også Nudansk Ordbog (Politikens Forlag) udgør
en væsentlig ressource. Allerede under det danske SIMPLE-arbejde
har vi samarbejdet med disse to partnere, og det er tanken at videreføre
dette samarbejde så vidt det er muligt. For norsks vedkommende er
situationen den at der ikke findes formaliserede semantiske beskrivelser
af ordforrådet. Bokmålsordboka giver så langt den mest
systematiske beskrivelse af norsk bokmål, men derudover er en database
med 20.000 lemmaer i moderne bokmål under udarbejdelse ved Seksjon
for leksikografi og målføregranskning (hvor projektlederen
er den norske ansvarlige i netværket). Arbejdet med denne base intensiveres
i år 2001, og resultatet kan tjene som input for de aktuelle norske
lemmaer i netværket. Endvidere har man ved Universitetet i Trondheim
(NorKompLex-projektet) beskrevet argumentstrukturen ved verberne i Bokmålsordboka,
og disse vil danne grundlag for valensbeskrivelserne af den norske ordbogsdel.
For alle tre sprog gælder det desuden at eksisterende store korpora
(sådanne eksisterer for dansk og svensk og er under opbygning for
norsk) vil blive taget i anvendelse i projektet.
Forskning inden for indholdsbaseret søgning
Indholdsbaseret informationssøgning er et meget komplekst område
som stiller store krav dels til forbehandling af tekstmaterialet, dels
til den sprogteknologiske ordbog. Ved Språkdata i Göteborg
er lemmatiser og tagger allerede udviklet for svensk til
at foregribe dette arbejde (Kokkinakis & Johansson Kokkinakis 1997
& 1999, Berg et al. 2000). Der er også arbejdet en del med kategorisering
af teksttyper til brug ved søgning. Endvidere har man arbejdet et
del med metoder for semi-automatisk udvidelse af leksikalske net (Cederholm
1999). På basis af 1000 betydninger i SIMPLE ordbogen har man
f.eks. kunnet generere 25.000 leksikonenheder med ontologisk opmærkning.
I Danmark er forsøg på at anvende den danske ontologibaserede
SIMPLE-ordbog i forbindelse med indholdsbaseret søgning allerede
igangsat i det tværfaglige forskningsprojekt OntoQuery (Ontology-based
Querying - se Andreassen et al. 2000 og Offersgaard et al. 2000).
Ontologi og semantisk leksikon tænkes at indgå i en analyse
som en såkaldte beskrivelsesgenerator foretager inden søgningen
iværksættes . En prototype med disse komponenter er under udvikling
ved Institut for Intelligente Systemer på Roskilde Universitet.
For at eksemplificere hvordan semantisk og ontologisk information kan
forbedre søgningsarbejdet kan man forestille sig et spørgsmål
i stil med: 'hvor finder jeg noget om støtte til solvarme?'. Den
relevante artikel anvender måske snarere termerne 'tilskud til energibevarende
foranstaltninger' og linket til disse begreber kan sikres ved at 'støtte'
og 'tilskud' indgår i en synonymirelation og således kan sammenhægtes,
mens 'energibevarende foranstaltning' og 'solvarme' indgår i en over-
underbegrebsrelation.
|