IDANNA - IDentifikation og ANonymisering af NAvne

Statens Humanistiske Forskningsråd besluttede i foråret 2003 at afsætte ca. 3.mio. til forskningsprojekter som er funderet i et samarbejde mellem forskningsinstitutioner og private erhvervsvirksomheder. IDANNA-projektet er et resultat af dette initiativ.

Projektdeltagerne er fra Max Manus A/S og Center for Sprogteknologi som i fællesskab har diskuteret og planlagt projektets fælles målsætning: Ud fra en forskningsmæssigt og anvendelsesorienteret baseret tilgang at udvikle et automatisk anonymiseringsværktøj som det første skridt på vejen hen imod at implementere en emnespecifik talegenkendelseskomponent for det juridiske område.

Udgangspunktet for udviklingen af talegenkendelseskomponenten er den platform (SpeechMagicTM) som er udviklet af Philips Speech Processing der på en effektiv og brugervenlig måde gør det muligt at tilpasse og træne applikationen til at kunne håndtere de emneområder der vil være behov for at dække. De probabilistiske sprogmodeller som skal bruges med henblik på at reducere antallet af beregninger i en talegenkendelsesproces kræver imidlertid at store mængder af relevante data er tilgængelige. Dokumenter inden for det juridiske område er per definition fortrolige, og kan derfor ikke udleveres som træningsmateriale uden at dokumenterne er blevet anonymiseret. Hvis denne anonymiseringsproces skulle udføres manuelt ville det blive så omkostningstungt at hele ideens gennemførelse fra et kommercielt synspunkt ville blive uinteressant. IDANNA-projektets ide om at forske i og udvikle en automatisering af anonymiseringsprocessen er derfor en oplagt løsning på problemet.

Fremgangsmåden

Fremgangsmåden med henblik på at gennemføre IDANNA-projektets mål kan beskrives som et klassisk opgaveafviklingsforløb inden for det datalingvistiske paradigme. Ud fra en orientering i allerede opnåede forskningsresultater, analyse af indsamlede data og indhentede brugeroplysninger specificeres hvad indholdet af et anonymiseringsbegreb skal være i denne sammenhæng - altså hvilke vidnesbyrd i et juridisk dokument der skal neutraliseres for at forhindre identifikation af de involverede firmaer og/eller personer i et juridisk dokument.

Den første opgave var således af få indsamlet et korpus der set ud fra en brugervinkel repræsenterede indholdet at det opgavespecifikke anonymiseringsbegreb. Kontakt blev etableret til et stort dansk advokatfirma som indvilgede i manuelt at få anonymiseret en tekstsamling der på denne måde udtrykte brugerens bud på og krav til funktionaliteten af et automatisk anonymiseringsværktøj.

I næste fase blev det indsamlede materiale analyseret med henblik på kortlægning af anonymiseringsbegrebet. Disse analyseresultater i kombination med top-down viden om anonymisering mundede ud i en præcis beskrivelse af en opgaveløsning (også benævnt et analysedokument) som så har udgjort grundlaget for udvikling af en kørende prototype for automatisk anonymisering af juridiske tekster.

Som nævnt ovenfor vil det automatisk anonymiserede korpus blive brugt til at optimere talegenkendelseskvaliteten. Parallelt med udviklingsarbejdet af anonymiseringsværktøjet blev der derfor arbejdet på at få afklaret hvad de forskellige identificerede vidnesbyrd skulle erstattes med for at der via videreudvikling på SpeechMagicTM-platformen kunne opnås de bedste talegenkendelsesresultater. For at illustrere anonymiseringsværktøjets funktionalitet så iagttag følgende eksempel (taget fra det manuelt anonymiserede korpus):

Input til anonymiseringsværktøjet:
For hovedstolen på kr. 4.000.500,00 hæfter debitor solidarisk med Kurt Jørgensen, Østregade 33, 4000, Roskilde.

Output fra anonymiseringsværktøjet:
For hovedstolen på kr. /*AMOUNT*/ hæfter debitor solidarisk med /*PERSON*/, /*STREET*/ /*MISCNUM*/, /*CITY*/

Som det kan observeres er der i segmentet fem tekstelementer der er blevet registreret som værende vidnesbyrd som skal anonymiseres:
4.000.500,00, Kurt Jørgensen, Østregade 33, 4000, Roskilde

Afprøv i praksis: DEMO

De fem elementer er blevet substitueret med semantiske "tags" som repræsenterer de betydningsmæssige delmængder de fem elementer er indeholdt i. Definitionen af tag-navnene er i henhold til aftale med Philips Speech Processing baseret på en balance mellem at være så detaljeret som mulig, samtidig med en hensyntagen til hvad det er praktisk muligt at fortolke entydigt. Analysen af de indsamlede data mundede ud i at antallet af anonymiseringselementer (eller vidnesbyrd) der indfanges er 34, medens antallet af forskellige tagnavne/typer der kan annoteres disse anonymiseringselementer er 23.

Næste fase udgøres af selve implementeringen/udviklingen af anonymiseringsværktøjet. Dette er gennemført i flere iterationer som har inkluderet:

- udvælgelse af en testsuite (en repræsentativ delmængde af det indsamlede og manuelt anonymiserede korpus)

- etablering af en "Gold standard" svarende til testsuiten manuelt anonymiseret og tilskrevet med de rigtige/intenderede semantiske tags (dvs. en facitliste)

- semiautomatisk sammenligning mellem anonymiseringsværktøjets kørselsresultater og Gold Standard formaliseret via anvendelse af recall- og precisionbegreberne, som i denne sammenhæng svarer til måling af dels hvor mange af de automatisk fundne vidnesbyrd der er de rigtige, og dels hvor mange af disse identificerede anonymiseringselementer der har fået den rigtige fortolkning - altså det rigtige semantiske tag.

En af fordelene ved at bruge denne formaliserede målingstype er at der tidligt i udviklingsforløbet kan etableres såkaldte baseline-resultater der fungerer som referencedata for det videre arbejde. Præcis registrering af hvordan ændringer/forbedringer af anonymiseringsprototypen udmønter sig vil således kunne opnås umiddelbart via sammenligning med baseline-resultaterne.

Den sidste arbejdsopgave består i brugerevaluering som overordnet kan siges at bestå af to dele. En første hvor et repræsentativt udsnit af de automatisk anonymiserede tekster vil blive tjekket af slutbrugeren med henblik på at afgøre om anonymiseringsgraden af teksterne er tilstrækkelig høj til at en større tekstsamling af dokumenter kan sendes ud af huset og blive anvendt som træningsdata til udvikling af en talegenkendelseskomponent. Efter godkendelse af slutbrugeren vil den andel del af brugerevalueringen bestå i at Philips Speech Processing i Østrig vurderer om substitueringen af anonymiseringselementer med semantiske tags er af så god kvalitet at korpusset umiddelbart kan anvendes som udgangspunkt til at reducere antallet af beregninger i en talegenkendelsesproces. Hvis ikke så vil det være nødvendigt at tilpasse anonymiseringsværktøjet, generere et nyt træningskorpus og endelig genfremsende det til Philips Speech Processing.

CST's kontakt

Seniorrådgiver Claus Povlsen
E-mail: claus@cst.dk

Datalingvist Dorte Haltrup Hansen
E-mail: dorte@cst.dk


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090