|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
HVAD ER STO?En sprogteknologisk orddatabase er en samling ordbogsdata beregnet til maskinel anvendelse i modsætning til andre ordbøger der først og fremmest er skabt til menneskelig anvendelse. STO er derfor et oplagt basisprodukt til anvendelse som leksikonkomponent i elektroniske systemer der arbejder med dansk sprog. De mest oplagte anvendelsesområder er on-line informationssøgning, automatisk og maskinstøttet oversættelse, spørgsmål/svar-systemer, sproglige hjælpemidler for handicappede, programmer til sprogundervisning mv. Men orddatabasens materiale er også velegnet til brug i datalingvistiske forskning, eksempelvis i testning af grammatikker. HVAD INDEHOLDER STO?Ordforrådet stammer primært fra almensprog (68.000 ord) og er fortrinsvis baseret på et aviskorpus. Det fagsproglige ordforråd (ca.
13.500 ord) stammer fra seks udvalgte emneområder, nemlig edb,
miljø,
sundhed/helse, finans, forvaltning samt handel & erhverv. Der er
indsamlet
et tekstkorpus på mellem 1 til 2 mill. løbende ord for
hvert af disse områder. Valg
af ordforrådet og de enkelte ords kodning er baseret på
disse korpusser. Oplysningstyper i STO:
Tabeller over ordforrådets sammensætning og lingvistiske beskrivelse:
Tabel 1. Det samlede ordforråd fordelt på
ordklasser *19% er under forberedelse
Tabel 2. Det almensproglige ordforråd, fordelt på ordklasser
Tabel 3. Ordforråd fra de enkelte emneområder, fordelt på ordklasser
STO brugergrænsefladeMed denne grænseflade kan lingvister og andre interesserede få indblik i en del af STO databasens indhold. |
|
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090 - Fax: +45 35329089 |