Fra ord til kommunikation med sprogteknologi

Sprogteknologi sigter mod alle stadier fra ord over tekst til information og tilmed fuld kommunikation med livagtige dukker i virtuelle verdener som forstår betydningen af dine ytringer.

På denne side kan du finde et udvalg af spørgsmål og svar om anvendelsen af sprogteknologi.

Hvordan bøjes ordene og hvordan kombineres de med andre ord?
Slå op i STO - en stor sprogteknologisk ordbase.
Hvordan kan man få en komplet liste over de ord som er brugt i en tekst?
På dansk bliver de fleste ord bøjet. Hvis man nu gerne vil opfatte alle bøjede former som repræsentanter af det samme ord, skal man bruge en lemmatiser - et værktøj som omdanner ordene til deres grundforme.
Hvordan kan man udtrække de indholdstunge ord fra en tekst?
Med en POS-tagger (POS=Part Of Speech) kan man bestemme et ords ordklasse ud fra bl.a. ordets kontekst. Ordene som er opmærket som navneord er typisk de indholdstunge ord. (Tænk på hvor ofte du søger på navneord i fx Google og hvor ofte på fx udsagnsord.)
Hvilke navne optræder i en tekst?
Med en navnegenkender kan man lokalisere og opmærke navne af fx personer og steder.
Hvordan kan man fjerne følsomme data fra en tekst?
Med et anonymiseringsværktøj, en variant på en navnegenkender, kan man erstatte beløb, datoer og person- og firmanavne med mere uskyldige strenge.
Hvordan kan man forbedre søgemaskiner?
Hvis det er ønskeligt at producere flere relevante hits, skal søgemaskinen være i stand til at kigge på kandidathits som måske ikke indeholder eksakt de samme ord som i søgestrengen, men dog ord som betyder det samme. Med en ontologi kan søgemaskinen konstruere nye søgestrenge som er alternativer til det brugeren har indtastet og dermed finde flere hits.

Nogle gange er problemet netop at der er for mange hits, især når brugeren har indtastet to eller flere ord som hver for sig ikke er særlig selektive. Men hvis maskinen er i stand til at genkende navneordsfraser, kan den begrænse søgeresultatet til de kandidathits hvor alle søgeord (fx affald og husholdning), nu opfattet som de betydningstunge ord i en alternativ udtryksform for et sammensat ord (fx affald fra husholdninger som alternativ for husholdningsaffald), forekommer i samme navneordsfrase. Forskningsresultater fra VID-projektet viser at sådanne hits typisk er de gode hits.

Bemærk i øvrigt at husholdning og husholdninger betragtes som 'det samme ord' i eksemplet. Det er selvfølgeligt fordi søgemaskinen forventes at have lemmatiseret både teksterne og brugerens søgestrenge!
Hvordan kan man automatisk oversætte fra et sprog til et andet?
Overordnet set findes der to typer programmer til oversættelse: oversættelseshukommelse og maskinoversættelse. Begge typer kræver menneskelig indblanding for at opnå god kvalitet. For tekster med en stor andel af gentagelser eller tekster som har en stor lighed med allerede oversatte tekster, er oversættelseshukommelse et godt valg. Med gentagelsestjekkeren kan du se hvilke gentagelser der findes.

Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Valid XHTML 1.0 Strict