IDANNA - IDentifikation og ANonymisering af NAvne
Statens Humanistiske Forskningsråd besluttede i
foråret
2003 at afsætte
ca. 3.mio. til forskningsprojekter som er funderet i et samarbejde
mellem
forskningsinstitutioner og private erhvervsvirksomheder.
IDANNA-projektet er et
resultat af dette initiativ.
Projektdeltagerne er fra Max
Manus
A/S og Center for
Sprogteknologi som
i fællesskab har diskuteret og planlagt projektets fælles
målsætning: Ud fra en forskningsmæssigt og
anvendelsesorienteret baseret tilgang at udvikle et automatisk
anonymiseringsværktøj som det første skridt
på vejen hen imod at implementere en emnespecifik
talegenkendelseskomponent for det juridiske område.
Udgangspunktet for udviklingen af talegenkendelseskomponenten
er den platform (SpeechMagicTM) som
er udviklet af Philips Speech Processing der på en effektiv og
brugervenlig måde gør det muligt at tilpasse og
træne applikationen til at kunne håndtere de
emneområder der vil være behov for at dække. De
probabilistiske sprogmodeller som skal bruges
med henblik på at reducere antallet af beregninger i en
talegenkendelsesproces
kræver imidlertid at store mængder af relevante data er
tilgængelige. Dokumenter inden for det juridiske område er
per definition fortrolige, og kan derfor ikke udleveres som
træningsmateriale uden at dokumenterne er blevet anonymiseret.
Hvis denne anonymiseringsproces skulle udføres manuelt ville det
blive så omkostningstungt at hele ideens gennemførelse fra
et kommercielt synspunkt ville blive uinteressant. IDANNA-projektets
ide om at forske i og udvikle en
automatisering af anonymiseringsprocessen er derfor en oplagt
løsning på problemet.
Fremgangsmåden
Fremgangsmåden med henblik på at gennemføre
IDANNA-projektets mål kan beskrives
som et klassisk opgaveafviklingsforløb inden for det
datalingvistiske paradigme. Ud fra en orientering i allerede
opnåede forskningsresultater, analyse af indsamlede data og
indhentede brugeroplysninger specificeres hvad indholdet af et
anonymiseringsbegreb skal være i denne sammenhæng -
altså hvilke vidnesbyrd i et juridisk dokument der skal
neutraliseres for at forhindre identifikation af de involverede firmaer
og/eller personer i et juridisk dokument.
Den første opgave var således af få indsamlet et
korpus der set ud fra en brugervinkel repræsenterede indholdet at
det opgavespecifikke
anonymiseringsbegreb. Kontakt blev etableret til et stort dansk
advokatfirma som indvilgede i manuelt at få anonymiseret en
tekstsamling der på denne måde udtrykte brugerens bud
på og
krav til funktionaliteten af et automatisk
anonymiseringsværktøj.
I næste fase blev det indsamlede materiale analyseret med henblik
på kortlægning af anonymiseringsbegrebet. Disse
analyseresultater i kombination med top-down viden om anonymisering
mundede ud i en præcis beskrivelse af en opgaveløsning
(også benævnt et analysedokument) som så har udgjort
grundlaget for udvikling af en kørende prototype for automatisk
anonymisering af juridiske tekster.
Som nævnt ovenfor vil det automatisk anonymiserede korpus blive
brugt til at optimere talegenkendelseskvaliteten. Parallelt med
udviklingsarbejdet af anonymiseringsværktøjet blev der
derfor arbejdet på at få afklaret hvad de forskellige
identificerede vidnesbyrd skulle erstattes med for at der via
videreudvikling på SpeechMagicTM-platformen kunne opnås de
bedste talegenkendelsesresultater. For at illustrere
anonymiseringsværktøjets funktionalitet så iagttag
følgende eksempel (taget fra det manuelt anonymiserede korpus):
Input til anonymiseringsværktøjet:
For hovedstolen på kr. 4.000.500,00 hæfter debitor
solidarisk med Kurt Jørgensen, Østregade 33, 4000,
Roskilde.
Output fra anonymiseringsværktøjet:
For hovedstolen på kr. /*AMOUNT*/ hæfter debitor solidarisk
med /*PERSON*/,
/*STREET*/ /*MISCNUM*/, /*CITY*/
Som det kan observeres er der i segmentet fem tekstelementer der er
blevet registreret som værende vidnesbyrd som skal anonymiseres:
4.000.500,00, Kurt Jørgensen, Østregade 33, 4000,
Roskilde
Afprøv i praksis: DEMO
De fem elementer er blevet substitueret med semantiske "tags" som
repræsenterer de betydningsmæssige delmængder de fem
elementer er indeholdt i. Definitionen af tag-navnene er i henhold til
aftale med Philips Speech Processing baseret på en balance mellem
at være så detaljeret som mulig, samtidig med en
hensyntagen
til hvad det er praktisk muligt at fortolke entydigt. Analysen af de
indsamlede
data mundede ud i at antallet af anonymiseringselementer (eller
vidnesbyrd) der
indfanges er 34, medens antallet af forskellige tagnavne/typer der kan
annoteres disse anonymiseringselementer er 23.
Næste fase udgøres af selve implementeringen/udviklingen
af anonymiseringsværktøjet. Dette er gennemført i
flere iterationer som har inkluderet:
- udvælgelse af en testsuite (en repræsentativ
delmængde af det indsamlede og manuelt anonymiserede korpus)
- etablering af en "Gold standard" svarende til testsuiten manuelt
anonymiseret og tilskrevet med de rigtige/intenderede semantiske tags
(dvs. en facitliste)
- semiautomatisk sammenligning mellem
anonymiseringsværktøjets kørselsresultater og Gold
Standard formaliseret via anvendelse af recall- og precisionbegreberne,
som i denne sammenhæng svarer til måling af dels hvor mange
af de automatisk fundne vidnesbyrd der er de rigtige, og dels hvor
mange af disse identificerede anonymiseringselementer der har
fået den rigtige fortolkning - altså det rigtige semantiske
tag.
En af fordelene ved at bruge denne formaliserede målingstype er
at der tidligt i udviklingsforløbet kan etableres såkaldte
baseline-resultater der fungerer som
referencedata for det videre arbejde. Præcis registrering af
hvordan ændringer/forbedringer af anonymiseringsprototypen
udmønter sig vil således kunne opnås umiddelbart via
sammenligning med baseline-resultaterne.
Den sidste arbejdsopgave består i brugerevaluering som overordnet
kan siges at bestå af to dele. En første hvor et
repræsentativt udsnit af de automatisk anonymiserede tekster vil
blive tjekket af slutbrugeren med henblik på at afgøre om
anonymiseringsgraden af teksterne er tilstrækkelig høj til
at en større tekstsamling af dokumenter kan sendes ud af huset
og blive anvendt som træningsdata til udvikling af en
talegenkendelseskomponent. Efter godkendelse af slutbrugeren vil den
andel del af brugerevalueringen bestå i at Philips Speech
Processing i Østrig vurderer om substitueringen af
anonymiseringselementer med semantiske tags er af så god kvalitet
at korpusset umiddelbart kan anvendes som udgangspunkt til at reducere
antallet af beregninger i en talegenkendelsesproces. Hvis ikke så
vil det være nødvendigt at tilpasse
anonymiseringsværktøjet, generere et nyt
træningskorpus og endelig genfremsende det til Philips Speech
Processing.
CST's kontakt
Seniorrådgiver Claus Povlsen
E-mail: claus@cst.dk
Datalingvist Dorte Haltrup Hansen
E-mail: dorte@cst.dk
|