Keyword extractor

CST's keyword extractor udtrækker 20 keywords der karakteriserer en tekst. Det gøres ved at tekstens ord sammenlignes med ord fra 1500 artikler (ca. 900.000 ord) fra Berlingske Tidende 1999. Ord i teksten antages for at være karakteriserende for teksten hvis de kun forekommer i forholdsvis få artikler i Berlinske Tidende, dvs. hvis de ikke blot er almindelige frekvente ord.

Den undersøgte tekst PoS-tagges og lemmatiseres. Derefter udregnes substantivernes relative frekvens vha. den velkendte vægtningsalgoritme TF*IDF1 som kombinerer termfrekvens (TF) og den omvendte dokumentfrekvens (IDF). Funktionen er i stand til at udskille de termer der karakteriserer et individuelt dokument fra termer der karakteriserer en hel dokumentsamling eller almen sprog:

TF*IDF = log10((n/df)*tf)

Hvor n er antallet af dokumenter (her 1500 artikler fra Berlingske Tidende), df er antallet af dokumenter hvori termen forekommer, og tf er termens frekvens i det undersøgte dokument.

De 20 keywords er tænkt som en liste hvorfra man kan vælge de ord man synes karakteriserer en tekst bedst. Men man kan fx også tilføje dem automatisk til en hjemmesides metatags. Det vil selvfølgelig være muligt at udskifte referencekorpusset så man ikke sammenligner med almensprog i Berlingske Tidende; men fx sammenligner med dokumenter af lignende art i en dokumentsamling.

1 Se fx Manning & Schütze 1999, p.543


Flerordstermer

Ud over enkeltord kan også tætknyttede flerordstermer være karakteriserende for en tekst, fx matematisk studentereksamen eller finansiel støtte, termer der på andre sprog ville kunne skrives som ét ord.

Flerordstermerne bliver beregnet på en anden måde end de andre keywords. Det er de mest relevante adjektiv + substantiv-kombinationer blandt tekstens ord og ikke de relativ mest frekvente ord sammenlignet man andre tekster.

Alle forekomster af samme flerordsterm fra teksten listes med forekomstens frekvens og samlet frekvens.


Mere Information

Læs mere i:
C. Navarretta, B.S. Pedersen, D.H. Hansen: Language Technology in knowledge-organisation systems. I New Review of Hypermedia and Multimedia, Vol. 12 No. 1, June 2006, 29-49.

Kontakt: Dorte Haltrup Hansen
E-mail: dorte @ cst.dk


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S