Projektet STO
Målbeskrivelse, 2001
STO-projektet er et 3-årigt projekt, hvis mål er at
producere en stor dansk sprogteknologisk ordbase.
En sprogteknologisk ordbase er en samling ordbogsdata lagret i en
database og beregnet til maskinel anvendelse i sprogteknologiske
værktøjer. Informationsteknologi bruges i dag i stadig
større udstrækning, og da ingen danske sproglige
værktøjer eller hjælpeprogrammer kan arbejde uden
adgang til en stor dansk sprogteknologisk orddatabase, er behovet for
at udvikle en sådan meget stort.
Det er målet, at ordbasen skal kunne udnyttes som basisprodukt
i så mange forskellige anvendelser som muligt, fx i on-line
informationssøgning, hjælpeværktøjer til at
oversætte tekster, talegenkendelse og -syntese, sproglige
hjælpemidler for handicappede og undervisningsprogrammer.
Derfor stilles nogle brede krav mht. ordforråd, og hvilke
lingvistiske oplysninger der skal beskrives. STO er således
korpusbaseret og sigter på en meget detaljeret lingvistisk
beskrivelse af de valgte ord.
Informationerne i STO er implementeret i en relationel
databasestruktur, således at de leksikografiske data, som er
opdelt i mange forskellige oplysningstyper, er relateret på
mange forskellige måder til hinanden. Dette sikrer, at den
ønskede delmængde af de lagrede oplysninger kan
udtrækkes på en meget fleksibel måde tilpasset
brugerens specifikke behov.
Ordbasen skal indeholde mindst 45.000 opslagsord fra almensprog og
seks udvalgte, afgrænsede fagområder. Dette materiale kan
udbygges med hensyn til både ordforrådets størrelse
(fx med flere fagområder) og oplysningstyper (fx med
udtaleoplysninger). Et opslagsords leksikografiske beskrivelse omfatter
detaljerede lingvistiske oplysninger, men disse er struktureret
anderledes end i traditionelle ordbøger.
Status pr. 1. marts 2004
Ordforrådet stammer primært fra almensprog; det
fagsproglige ordforråd (ca. 13.500 ord) stammer fra seks udvalgte
emneområder, nemlig edb, miljø, sundhed/helse, finans,
forvaltning samt handel & erhverv. Der er indsamlet et tekstkorpus
fra Internettet på mellem 1 til 2 mill. løbende ord for
hvert af disse områder. Valg af ordforrådet og de
enkelte ords kodning er baseret på disse korpusser. Der er
udarbejdet Lingvistiske Specifikationer for STO. Dokumentet
bliver gjort tilgængelig efter projektets afslutning i form af et
Working Paper.
Der er kodet i alt mere end 81.000 opslagsord med
morfologiske oplysninger, herunder ordklasse, bøjning,
eventuelle stavevarianter samt for substantivers vedkommende også
oplysninger vedrørende sammensætning.
Af dette ordforråd er ca. 45.000 også forsynet
med syntaktisk beskrivelse omfattende valensmønster som
indeholder oplysninger om kategoriel og funktionel valens, valensbundne
præpositioner mv., og for verber desuden specifikation af
hjælpeverbum. For hvert valensmønster er der desuden
anført et prototypisk korpuseksempel.
En delmængde af ordforrådet er også
forsynet med semantisk beskrivelse med varierende detaljeringsgrad: ca.
8.500 almensproglige opslagsord er beskrevet i overensstemmelse med
SIMPLE specifikationerne
(ontologisk type, semantisk relation, argumentstruktur,
selektionsrestriktioner, qualia struktur mm.) og ca. 2.500 fagsproglige
ord fra emneområdet sundhed/helse er beskrevet med ontologisk
type, argumentstruktur og selektionsrestriktioner. Desuden er alle
fagord forsynet med emneområdeangivelse.
Projektledelse og samarbejdspartnere
Projektledelse og koordinereing blev varetaget af CST. Ordbasen er
produceret i samarbejde med Institut for Datalingvistik,
Handelshøjskolen i København, Institut for Almen og
Anvendt Lingvistik, Københavns Universitet og Institut for
Erhvervsinformatik, Kolding.
Projektleder: Anna Braasch
E-post: anna @ cst.dk
Følgende har deltaget i STO projektet:
Center for Sprogteknologi,www.cst.dk
Dorte Haltrup Hansen,
dorte @ cst.dk
Nicolai Hartvig Sørensen
Lina Henriksen, lina
@ cst.dk
Costanza Navaretta,
costanza @ cst.dk
Lene Offersgaard,
loff @ cst.dk
Sussi Olsen, sussi
@ cst.dk
Bolette Pedersen,
bolette @ cst.dk
Claus Povlsen,
claus @ cst.dk
Sanni Nimb, sanni @ cst.dk
Tidligere projektmedarbejdere på CST:
Bo Fleig Mortensen og Bo Pedersen
Institut for Datalingvistik, HHK,
www.id.cbs.dk
Projektleder: Stig W. Jørgensen,
swj.id @ cbs.dk
Øvrige faste medarbejdere:
Jette Drost
Carsten Hansen
Der er desuden tilknyttet studenterhjælp.
Institut for Almen og Anvendt Sprogvidenskab, KUA,
www.chpling.dk
Ole Nedergaard Thomsen, ont@chpling.dk
Mikkel Hald, mikhal@cphling.dk
Institut for Fagsprog, Kommunikation og Informationsvidenskab,
SDU
Henrik Holmboe, holmboe@asb.dk
Anden information
- Her kan du se mere information om STO:
-
Adgang til materialet
-
Lingvistisk
beskrivelsesmodel
-
Artikler om STO
- Her kan du downloade mere information om STO i Microsoft Powerpoint
format:
- Braasch, Anna:
A Lexical Database of Danish
for Language Technology Applications,
SPINN Seminar,
Oct. 2001.
CST kontakt
Anna Braasch anna @ cst.dk
|