Mere information om SPINN

Humanistisk Fakultet Københavns Universitet Intranet PUNKT.KU English

SPINN

SProgteknologi og INformationssøgning i Norden
- et netværk om harmonisering og sammenkædning af sprogteknologiske ordbaser med særligt henblik på informationssøgning

Opbygningen af tværsproglige, sprogteknologiske ressourcer

Flere projekter og initiativer i Europa afspejler vigtigheden af at harmonisere og standardisere semantiske ordbogsdata til brug for sprogteknologiske formål. Her kan nævnes EAGLES (Expert Advisory Group on Language Engineering Standards) som har nedsat en særlig interessegruppe omkring harmonisering af ordbogsdata: The EAGLES Lexicon group. Det svenske medlem i ledelsesgruppen har deltaget i dette arbejde, hvor man bl.a. har (i) udarbejdet en oversigt over maskinlæsbare leksika, leksikalske databaser, ordnet og ontologier, (ii) specificeret en række krav som man bør stille til leksikalsk-semantiske ressourcer i forskellige sprogteknologiske sammenhænge som f.eks. maskinoversættelse, informationssøgning, automatisk resumering samt sproggenerering, og endelig (iii) udarbejdet anbefalinger mhp. leksikalsk-semantisk ordbogsarbejde . Også det seneste 'åbent hus'-arrangement i Luxembourg i september 2000 i forbindelse med EU's femte rammeprogram (Key action III "Multimedia Contents and Tools") understregede behovet for udbygningen af flersproglige semantiske ressourcer til informationssøgning.

EU-projektet EuroWordNet (EWN) skaber også en vigtig basis for dette netværk eftersom det fokuserer på formalisering og flersproglig sammenkædning af leksikalsk-semantiske data. Projektet gik ud på at udarbejde leksikalske net for hollandsk, spansk, italiensk og engelsk og i noget mindre målestok også for fransk, tysk, tjekkisk og estisk. De såkaldte 'synsets' - synonymigrupper - udgør sammen med et elaboreret sæt af semantiske relationer og en ontologisk karakteristik kernen i ordnetsbeskrivelserne (se Alonge et al. 1998). Ordnettene for de forskellige sprog sammenkædes via et metasprog, det såkaldte Inter-Lingual-Index, og det er tanken at genbruge flere elementer af dette sammenkædningsprincip i netværket. I tilknytning til EWN bør nævnes Svensk Ordnät - et computerbaseret leksikon for svensk (Willners 1997) hvor også synonymigrupper udgør den grundlæggende beskrivningskategori. Flertydige ord indgår således i flere synonymigrupper som f.eks. slita som indgår i følgende synonymigrupper {slita, rycka} (slita i betydningen 'rive af', 'sønderrive') {slita, nöta} (slita i procesbetydningen 'slide'), {slita, gno, knoga} (slita i betydningen 'ase', 'arbejde hårdt').

Det primære incitament til at iværksætte netværket er dog EU-projektet SIMPLE (Semantic Information for Multifunctional, Plurilingual Lexica) , se også (Pedersen & Keson 1999, Pedersen & Nimb 2000, Kokkinakis et al. 2000 samt Lenci et al. 2000 1 og 2). I dette projekt har man skabt forudsætningerne for at udarbejde semantiske, sprogteknologiske ordbøger for 12 sprog med hver især 10.000 ordbetydninger: 7000 substantiver, 2000 verber og 1000 adjektiver. For hver ordbetydning kan angives informationer af typen (i) begrebstype (semantisk klasse) hentet fra SIMPLE-ontologien som består af 139 hierarkisk ordnede begreber, (ii) domæne, (iii) betydningsdefinition, (iv) korpuseksempel, (v) argumentstruktur (semantisk valens), (vi) selektionsrestriktioner, altså hvilke semantiske krav der stilles til ordets argumenter (f.eks. humant subjekt), (vii) semantiske relationer og semantiske træk baseret på Pustejovskys såkaldte Qualiastruktur (Pustejovsky 1995), samt endelig synonymi-, polysemi- og kollokationsrelationer. Det faktum at alle sproggrupperne har anvendt de samme specifikationer for beskrivelsen, støtter tanken om en senere, tværsproglig sammenkædning af disse. For at sikre at der findes en kerne af fælles ordforråd i projektet, har man desuden udvalgt 1000 kernebegreber som for dansk og svensk har udkrystalliseret sig i ca. 1300 ordbetydninger. Udover dette fælles ordforråd kender vi ikke på nuværende tidspunkt fællesmængden af betydninger i de to ordbøger men vi skønner at ca. halvdelen af betydningerne (ca. 5000) er beskrevet i begge ordbøger idet ordforrådet er udvalgt på basis af hyppighedskriterier på begge sprog.

Hvad angår det tværsproglige aspekt mellem de skandinaviske sprog ønsker vi at eksperimentere med at anvende engelsk som metasprog. Der er flere grunde til dette valg. Vores konkrete, lingvistiske begrundelse er at den meget stringente systematik der er anvendt for betydningsopdeling i ordbogen The New Oxford Dictionary of English (NODE), er teoretisk interessant også set i et traditionelt leksikografisk perspektiv. Således mener vi at NODE's ordbogsdata vil udgøre et velegnet og stringent metasprog for projektet. Hvor SIMPLE-projektet fokuserer på hvorledes ordenes interne semantiske struktur kan beskrives formelt i datamatiske termer og i forhold til en formel ontologi, udgør NODE en værdifuld ressource på et andet plan fordi man her har udviklet en brugbar metode til identificering af grundbetydninger, udvidede betydninger og specialiserede betydninger. Dette aspekt - at ordenes betydninger ikke bare kan beskrives uafhængigt af hinanden, men at de indeholder en indbygget systematik og dynamik- er først for nylig kommet i fokus inden for den sprogteknologiske forskning. Den er imidlertid en forudsætning for at de sprogteknologiske værktøjer kan håndtere sproglige problemstillinger på en tilfredsstillende måde. En anden mere teknologisk begrundelse for at vælge engelsk som metasprog er at ordbogsnetværket i så fald vil være direkte anvendeligt i forbindelse med teknologioverførsel fra engelsk til de nordiske sprog. Især når det drejer sig som mindre udbredte sprog som de nordiske, er dette aspekt væsentligt idet udviklingen af flersproglige ordbogsressourcer er en bekostelig opgave.

Sammenkædningen af leksemer indbefatter to delfaser som man kunne kalde hhv. metasammenkædning og intern sammenkædning. Metasammensammenkædning foregår først og angår den parvise sammenkædning mellem hvert af de nordiske sprog på den ene side og NODE på den anden side. Derefter kommer den interne sammenkædning som med udgangspunkt i den information der er givet ved metasammenkædningen, etablerer sammenkædningen mellem de nordiske sprog. Faserne illustreres nedenfor:

Udover de allerede nævnte ressourcer er det naturligvis også vigtigt at trække på de yderligere leksikalske ressourcer der findes nationalt i Danmark, Sverige og Norge. Her står svensk stærkest idet man for svensk har Göteborgs leksikalske database, GLDB (oprindeligt udarbejdet 1978-86), og dens udvidelser i hhv. GLDB/NEO (Nationalencyklopediens ordbog) og GLDB/SDB (semantisk database) (se bl.a. Järborg 1989). GLDB/NEO indeholder 68.000 hovedbetydninger og 26.000 underbetydninger med stringente definitioner samt information om synonymi, kohyponymi, antonymi, hyperonymi og endelig selektionsrestriktioner. Endvidere tilfører terminologiske domæner en yderligere dimension til beskrivelserne. For dansk udgør Den Danske Ordbog (Det Danske Sprog- og Litteraturselskab) som er under udvikling i øjeblikket, den væsentligste ressource idet der også her er tale om en stringent model for betydningsopdeling der lægger sig tæt op ad NODE's, samt en korpusbaseret tilgang til ordforrådet der sikrer en god sammenhæng mellem ordbog og faktisk ordbrug. Også Nudansk Ordbog (Politikens Forlag) udgør en væsentlig ressource. Allerede under det danske SIMPLE-arbejde har vi samarbejdet med disse to partnere, og det er tanken at videreføre dette samarbejde så vidt det er muligt. For norsks vedkommende er situationen den at der ikke findes formaliserede semantiske beskrivelser af ordforrådet. Bokmålsordboka giver så langt den mest systematiske beskrivelse af norsk bokmål, men derudover er en database med 20.000 lemmaer i moderne bokmål under udarbejdelse ved Seksjon for leksikografi og målføregranskning (hvor projektlederen er den norske ansvarlige i netværket). Arbejdet med denne base intensiveres i år 2001, og resultatet kan tjene som input for de aktuelle norske lemmaer i netværket. Endvidere har man ved Universitetet i Trondheim (NorKompLex-projektet) beskrevet argumentstrukturen ved verberne i Bokmålsordboka, og disse vil danne grundlag for valensbeskrivelserne af den norske ordbogsdel. For alle tre sprog gælder det desuden at eksisterende store korpora (sådanne eksisterer for dansk og svensk og er under opbygning for norsk) vil blive taget i anvendelse i projektet.

Forskning inden for indholdsbaseret søgning

Indholdsbaseret informationssøgning er et meget komplekst område som stiller store krav dels til forbehandling af tekstmaterialet, dels til den sprogteknologiske ordbog. Ved Språkdata i Göteborg
er lemmatiser og tagger allerede udviklet for svensk til at foregribe dette arbejde (Kokkinakis & Johansson Kokkinakis 1997 & 1999, Berg et al. 2000). Der er også arbejdet en del med kategorisering af teksttyper til brug ved søgning. Endvidere har man arbejdet et del med metoder for semi-automatisk udvidelse af leksikalske net (Cederholm 1999). På basis af 1000 betydninger i SIMPLE ordbogen har man f.eks. kunnet generere 25.000 leksikonenheder med ontologisk opmærkning.

I Danmark er forsøg på at anvende den danske ontologibaserede SIMPLE-ordbog i forbindelse med indholdsbaseret søgning allerede igangsat i det tværfaglige forskningsprojekt OntoQuery (Ontology-based Querying - se Andreassen et al. 2000 og Offersgaard et al. 2000). Ontologi og semantisk leksikon tænkes at indgå i en analyse som en såkaldte beskrivelsesgenerator foretager inden søgningen iværksættes . En prototype med disse komponenter er under udvikling ved Institut for Intelligente Systemer på Roskilde Universitet.

For at eksemplificere hvordan semantisk og ontologisk information kan forbedre søgningsarbejdet kan man forestille sig et spørgsmål i stil med: 'hvor finder jeg noget om støtte til solvarme?'. Den relevante artikel anvender måske snarere termerne 'tilskud til energibevarende foranstaltninger' og linket til disse begreber kan sikres ved at 'støtte' og 'tilskud' indgår i en synonymirelation og således kan sammenhægtes, mens 'energibevarende foranstaltning' og 'solvarme' indgår i en over- underbegrebsrelation.

Referencer

Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090 - Fax: +45 35329089

Tilgængelighed

SPINN

SProgteknologi og INformationssøgning i Norden - et netværk om harmonisering og sammenkædning af sprogteknologiske ordbaser med særligt henblik på informationssøgning

Opbygningen af tværsproglige, sprogteknologiske ressourcer

Forskning inden for indholdsbaseret søgning

SProgteknologi og INformationssøgning i Norden
- et netværk om harmonisering og sammenkædning af sprogteknologiske ordbaser med særligt henblik på informationssøgning