Navnegenkender

CST's navnegenkender klassificerer navne i:
    - personnavne,
    - stednavne (underinddelt i gade, by, land og andre stednavne),
    - og andre navne (kaldet MISC)

Fx.

"Per Sørensen arbejder i Landmandsbanken i Sorø"

Per=Sørensen*PERSONNAMEX arbejder i Landmandsbanken*MISCNAMEX i Sorø*CITYNAMEX

Desuden identificeres datoer.



CST's navnegenkender er regelbaseret og kan udvides med andre navnekategorier (fx produktnavne, firmanavne, eventnavne mm.) ved at tilføje lister og lave regler der karakteriserer de nye kategorier.  Desuden kan programmet klassificere forskellige typer af tal som fx personnumre, telefonnumre mm.

For CST's navnegenkender brugt som anonymiseringsværktøj (se IDANNA) er der opnået gode resultater. Inden for advokattekster fås recall på 82% og precision på 94%; mens der inden for psykiatriske lægejournaler opnås recall på 95% og precision på 97% (Recall er det antal navne som programmet finder, og precision er det antal navne programmet kategoriserer korrekt). Hvis navnegenkenderen bruges på almene tekster, må man forvente en lavere genkendelsesrate da justering af programmet i forhold til bestemte fagområder (fx lægejournaler eller advokattekster) hjælper til identifikation af navne.

Foruden anonymisering kan navnegenkendelse fx bruges som præproces i maskinoversættelse, så navne ikke forsøges oversat, som fakta-finder i dokumenter eller som præproces til POS-tagger (se siden om Brill-taggeren).

CST's navnegenkender er udelukkende til danske tekster.

Mere information

Rapport om navnegenkender brugt til anonymisering

Kontakt: Dorte Haltrup Hansen
E-mail:   dorteh@hum.ku.dk


Anskaffelse og brug

For aftaler om brug af lingware og kommerciel brug af programmet:

Bart Jongejan
E-mail: bartj@hum.ku.dk


Blå linie
Njalsgade 140-142, bygn. 25, DK-2300 KBH S
Tlf: +45 35329090 - Fax: +45 35329089
Valid XHTML 1.0 Strict