Tokeniser |
Navnegenkender | POS-tagger
| Lemmatiser |
NP-genkender |
Gentagelsestjekker |
Keywordextractor | Flerordstermer
Kombination af ovenstående
værktøjer
Resumeringsværktøj |
Sprogteknologisk ordbase | Anonymisering
| Korpussøgning
CST's online demoer
Fra denne side kan du følge links til demoversioner af vores sprogteknologiske
værktøjer, grammatikker og ordbaser.
Se også disse eksempler på hvor du
har brug for sprogteknologiske løsninger.
- Tokeniser
-
CST's tokeniser danner segmenter der ca. svarer til sætninger og deler disse
op i tokens, dvs. ord, tal og tegn.
- Navnegenkender
-
CST's navnegenkender afgrænser og klassificerer egennavne i en tekst.
- POS-tagger
-
POS-taggeren tildeler automatisk ordklasseoplysninger til ord i en tekst, dvs. om
det er et navneord, udsagnsord, osv.
- Lemmatiser
-
CST's lemmatiser fører hver ordform i en tekst tilbage til lemmaformen, grundformen,
dvs. den form som man bruger til at slå op i en ordbog.
- NP-genkender
-
NP-genkenderen afgrænser simple substantivfraser.
- Gentagelsestjekker
-
Programmet finder gentagelser af markante ordgrupper ud fra en statistisk metode,
fx i en EU-tekst: for så vidt angår eller traktaten om oprettelse
af det europæiske atomenergifællesskab.
- Keywordextractor
-
Programmet udtrækker 20 keywords der karakteriserer en tekst.
- Flerordstermer
-
Programmet finder de mest relevante adjektiv + substantiv-kombinationer blandt tekstens
ord.
- Test en kombination
af ovenstående værktøjer
-
Ovenstående værktøjer kan arbejde sammen i forskellige kombinationer.
- Resumeringsværktøj
-
Resumeringsværktøjet (DanSum) kan
anvendes til automatisk resumering af danske avis- og rapporttekster.
- Sprogteknologisk ordbase
-
Brugergrænseflade til den SprogTeknologiske Ordbase (STO).
- Anonymisering
-
IDentifikation og ANonymisering af NAvne (IDANNA).
- Korpussøgning
-
Søgning i korpora: MUltiLINgual Corpus of the University of COpenhagen(MULINCO).
|