Projektet STO

Målbeskrivelse, 2001

STO-projektet er et 3-årigt projekt, hvis mål er at producere en stor dansk sprogteknologisk ordbase.

En sprogteknologisk ordbase er en samling ordbogsdata lagret i en database og beregnet til maskinel anvendelse i sprogteknologiske værktøjer. Informationsteknologi bruges i dag i stadig større udstrækning, og da ingen danske sproglige værktøjer eller hjælpeprogrammer kan arbejde uden adgang til en stor dansk sprogteknologisk orddatabase, er behovet for at udvikle en sådan meget stort.

Det er målet, at ordbasen skal kunne udnyttes som basisprodukt i så mange forskellige anvendelser som muligt, fx i on-line informationssøgning, hjælpeværktøjer til at oversætte tekster, talegenkendelse og -syntese, sproglige hjælpemidler for handicappede og undervisningsprogrammer.

Derfor stilles nogle brede krav mht. ordforråd, og hvilke lingvistiske oplysninger der skal beskrives. STO er således korpusbaseret og sigter på en meget detaljeret lingvistisk beskrivelse af de valgte ord.

Informationerne i STO er implementeret i en relationel databasestruktur, således at de leksikografiske data, som er opdelt i mange forskellige oplysningstyper, er relateret på mange forskellige måder til hinanden. Dette sikrer, at den ønskede delmængde af de lagrede oplysninger kan udtrækkes på en meget fleksibel måde tilpasset brugerens specifikke behov.

Ordbasen skal indeholde mindst 45.000 opslagsord fra almensprog og seks udvalgte, afgrænsede fagområder. Dette materiale kan udbygges med hensyn til både ordforrådets størrelse (fx med flere fagområder) og oplysningstyper (fx med udtaleoplysninger). Et opslagsords leksikografiske beskrivelse omfatter detaljerede lingvistiske oplysninger, men disse er struktureret anderledes end i traditionelle ordbøger.

Status pr. 1. marts 2004

Ordforrådet stammer primært fra almensprog; det fagsproglige ordforråd (ca. 13.500 ord) stammer fra seks udvalgte emneområder, nemlig edb, miljø, sundhed/helse, finans, forvaltning samt handel & erhverv. Der er indsamlet et tekstkorpus fra Internettet på mellem 1 til 2 mill. løbende ord for hvert af disse områder. Valg af ordforrådet og  de enkelte ords kodning er baseret på disse korpusser. Der er udarbejdet Lingvistiske Specifikationer for STO. Dokumentet bliver gjort tilgængelig efter projektets afslutning i form af et Working Paper.

Der er kodet i alt mere end 81.000 opslagsord med morfologiske oplysninger, herunder ordklasse, bøjning, eventuelle stavevarianter samt for substantivers vedkommende også oplysninger vedrørende sammensætning.

Af dette ordforråd er ca. 45.000 også forsynet med syntaktisk beskrivelse omfattende valensmønster som indeholder oplysninger om kategoriel og funktionel valens, valensbundne præpositioner mv., og for verber desuden specifikation af hjælpeverbum. For hvert valensmønster er der desuden anført et prototypisk korpuseksempel.

En delmængde af ordforrådet er også forsynet med semantisk beskrivelse med varierende detaljeringsgrad: ca. 8.500 almensproglige opslagsord er beskrevet i overensstemmelse med SIMPLE specifikationerne (ontologisk type, semantisk relation, argumentstruktur, selektionsrestriktioner, qualia struktur mm.) og ca. 2.500 fagsproglige ord fra emneområdet sundhed/helse er beskrevet med ontologisk type, argumentstruktur og selektionsrestriktioner. Desuden er alle fagord forsynet med emneområdeangivelse.

Projektledelse og samarbejdspartnere

Projektledelse og koordinereing blev varetaget af CST. Ordbasen er produceret i samarbejde med Institut for Datalingvistik, Handelshøjskolen i København, Institut for Almen og Anvendt Lingvistik, Københavns Universitet og Institut for Erhvervsinformatik, Kolding.

Projektleder: Anna Braasch
E-post: anna @ cst.dk

Følgende har deltaget i STO projektet:

Center for Sprogteknologi,www.cst.dk
Dorte Haltrup Hansen, dorte @ cst.dk
Nicolai Hartvig Sørensen
Lina Henriksen, lina @ cst.dk
Costanza Navaretta, costanza @ cst.dk
Lene Offersgaard, loff @ cst.dk
Sussi Olsen, sussi @ cst.dk
Bolette Pedersen, bolette @ cst.dk
Claus Povlsen, claus @ cst.dk
Sanni Nimb, sanni @ cst.dk

Tidligere projektmedarbejdere på CST:
Bo Fleig Mortensen og Bo Pedersen

Institut for Datalingvistik, HHK, www.id.cbs.dk
Projektleder: Stig W. Jørgensen, swj.id @ cbs.dk

Øvrige faste medarbejdere:
Jette Drost
Carsten Hansen
Der er desuden tilknyttet studenterhjælp.

Institut for Almen og Anvendt Sprogvidenskab, KUA, www.chpling.dk
Ole Nedergaard Thomsen, ont@chpling.dk
Mikkel Hald, mikhal@cphling.dk

Institut for Fagsprog, Kommunikation og Informationsvidenskab, SDU
Henrik Holmboe, holmboe@asb.dk

Anden information

Her kan du se mere information om STO:
Adgang til materialet
Lingvistisk beskrivelsesmodel
Artikler om STO
Her kan du downloade mere information om STO i Microsoft Powerpoint format:
Braasch, Anna: A Lexical Database of Danish for Language Technology Applications,
SPINN
Seminar, Oct. 2001.

CST kontakt

Anna Braasch anna @ cst.dk


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090