Den lingvistiske beskrivelsesmodel
for STO
Informationsindholdet i STO er opdelt i oplysningstyper som struktureres i enheder på tre adskilte beskrivelsesniveauer svarende til ords morfologiske, syntaktiske og semantiske egenskaber. Enhederne kædes sammen på forskellig vis og derved produceres fra den niveaudelte ordbase en samlet leksikografisk-lingvistisk beskrivelse af de enkelte opslagsord, en 'ordbogsartikel', se figur: Denne opdeling er særdeles hensigtsmæssig set ud fra et datamatisk synspunkt når man vil sikre at ordbasens materiale kan anvendes til forskellige formål, da man derved kan formindske de overgenereringsproblemer der er forårsaget af flertydigheder på de enkelte niveauer. Eksempelvis behøver et stavekontrolprogram ikke detaljerede syntaktiske oplysninger og støder derved ikke ind i problemerne med syntaktisk flertydighed. En morfologisk enhed giver som minimum oplysning om opslagsordets stavning, bøjning, ordklasse og køn (disse suppleres løbende med orddannelsesoplysninger); en syntaktisk enhed indeholder oplysninger om opslagsordets konstruktionspotentiale (funktionel og kategoriel valens, mm.), syntaktiske funktion i konstruktioner, brug af hjælpeverbum osv. Endelig indeholder en semantisk enhed som minimum oplysning om domæne. Den del af ordforrådet, der er behandlet i SIMPLE-projektet, er desuden beskrevet mht. betydningsopdeling, ontologisk tilhørsforhold, selektionsrestriktioner, supplerende semantiske træk og semantiske relationer. Dette materiale vil blive inkorporeret af STO. Oplysningerne udtrykkes i attribut/værdi-par der er formaliserede i koder; hver unik kombination af et sæt sammenhørende koder udgør et mønster.
|
|
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090 |