Fra ord til kommunikation med sprogteknologi
Sprogteknologi sigter mod alle stadier fra ord over tekst til
information og tilmed fuld kommunikation med livagtige dukker
i virtuelle verdener som forstår betydningen af dine ytringer.
På denne side kan du finde et udvalg af spørgsmål og svar om anvendelsen af sprogteknologi.
- Hvordan bøjes ordene og hvordan kombineres de med andre ord?
-
Slå op i STO - en stor sprogteknologisk ordbase.
- Hvordan kan man få en komplet liste over de ord som er brugt i en tekst?
-
På dansk bliver de fleste ord bøjet. Hvis man nu gerne vil opfatte
alle bøjede former som repræsentanter af det samme ord, skal man bruge
en lemmatiser - et værktøj som omdanner ordene til deres grundforme.
- Hvordan kan man udtrække de indholdstunge ord fra en tekst?
-
Med en POS-tagger (POS=Part Of Speech) kan man bestemme et ords ordklasse ud
fra bl.a. ordets kontekst. Ordene som er opmærket som navneord er
typisk de indholdstunge ord. (Tænk på hvor ofte du søger på navneord i
fx Google og hvor ofte på fx udsagnsord.)
- Hvilke navne optræder i en tekst?
-
Med en navnegenkender kan man lokalisere og opmærke navne af fx personer og steder.
- Hvordan kan man fjerne følsomme data fra en tekst?
-
Med et anonymiseringsværktøj, en variant på en navnegenkender, kan man erstatte beløb, datoer og person- og firmanavne med mere uskyldige strenge.
- Hvordan kan man forbedre søgemaskiner?
-
Hvis det er ønskeligt at producere flere relevante hits, skal
søgemaskinen være i stand til at kigge på kandidathits som måske ikke
indeholder
eksakt de samme ord som i søgestrengen, men dog ord som betyder det
samme. Med en ontologi kan søgemaskinen konstruere nye søgestrenge
som er alternativer til det brugeren har indtastet og dermed finde
flere hits.
Nogle gange er problemet netop at der er for mange
hits, især når brugeren har indtastet to eller flere ord som
hver for sig ikke er særlig selektive. Men hvis maskinen er i stand til at genkende navneordsfraser,
kan den begrænse søgeresultatet til de kandidathits hvor alle
søgeord (fx affald og husholdning), nu opfattet som de betydningstunge ord i en alternativ udtryksform for et sammensat ord (fx affald fra husholdninger som alternativ for husholdningsaffald), forekommer i samme navneordsfrase. Forskningsresultater fra
VID-projektet viser at sådanne hits typisk er de gode hits.
Bemærk i øvrigt at husholdning og husholdninger betragtes som 'det samme ord' i eksemplet. Det er selvfølgeligt fordi søgemaskinen forventes at have lemmatiseret både teksterne og brugerens søgestrenge!
-
Hvordan kan man automatisk oversætte fra et sprog til et andet?
-
Overordnet set findes der to typer programmer til oversættelse:
oversættelseshukommelse og maskinoversættelse. Begge typer kræver
menneskelig indblanding for at opnå god kvalitet. For tekster med en
stor andel af gentagelser eller tekster som har en stor lighed med
allerede oversatte tekster, er oversættelseshukommelse et godt valg.
Med gentagelsestjekkeren kan du se hvilke gentagelser der findes.
|