Denne vejledning indeholder:
- Generelt om
DanSums
hjemmeside
- Hvad
kan man bruge DanSum
til
- Hvad kan
man forvente af et DanSum-resumé
- Hvordan læser man
statistikken
- Gode råd
- Fremtidig udvidelse af DanSum
DanSums
hovedside
DanSums
demoside
Generelt om DanSums
hjemmeside
DanSums hjemmeside
består af 3 sider:
Hovedsiden hvor er er en
kort introduktion.
Demosiden,
hvor man:
- Indtaster adressen
på den hjemmeside
man vil have resumeret
(fx.
http://www.cst.dk/defsum/Information.html)
- Vælger hvor langt
resuméet
skal være
(fx. 30%
af originalteksten)
- Vælger hvilken
teksttype der er tale om
(pt. kan
man vælge mellem
avis eller rapport)
Og får teksten
resumeret.
Man kan desuden indtaste
en række nøgleord
som resumeringsmaskinen skal lede efter og tage med i resuméet.
Siden for "avanceret
resumering", hvor man:
- Indsætter en tekst
(man kan fx.
kopiere tekst fra et
word- eller pdf-dokument)
eller
- Vælger et af sine
egne dokumenter
(pt. kun
html-
eller tekstformat)
- Kan indtaste
søgeord
som
resumeringsmaskinen skal lede
efter
og tage med i
resuméet
- Vælger hvilken
teksttype der er tale om
(pt. kan
man vælge mellem
avis eller rapport)
- Angiver på
hvilket sprog teksten er skrevet
(dansk,
engelsk, fransk, spansk,
svensk, tysk
eller generisk, dvs.
at der ikke er valgt et sprog)
- Vælger hvor langt
resuméet
skal være
(fx. 30%
af originalteksten,
50 ord eller 200 tegn)
- Vælger hvormange af tekstens nøgleord der
skal udskrives
(fx. 10 stk.)
- Vælger hvad resumeringsmaskinen skal
prioritere
som vigtigt i teksten
Og får teksten resumeret
Til sidens top
Hvad kan man bruge
DanSum til
Case 1:
Overblik
Du har behov for at få
et hurtigt overblik over indholdet
af en tekst der enten er et af dine egne dokumenter eller et fra
internettet.
Hvis teksten er en
hjemmeside indtaster du adressen,
hvis det er et af dine egne dokumenter, finder du det under "browse
..."
og hvis det er et pdf- eller word-dokument kopierer du teksten og
indsætter det i tekstvinduet. Derefter klikker
du på "resumer" og får et resumé samt en
række
nøgleord udskrevet på skærmen.
Nøgleordene giver et første indtryk af hvad
teksten handler
om, og resuméet viser tekstens vigtigste passager.
Case 2:
Et specielt emne
Du er interesseret i et
specielt emne i et dokument,
fx. resultaterne af en undersøgelse. Derfor vil du have lavet et
resumé
der specielt omhandler det emne.
Du indtaster adressen på dokumentet eller kopierer en
tekstdel ind i
tekstvinduet. Derefter indtaster du de nøgleleord der
karakteriserer
det emne du er interesseret i (det kunne fx. være: fejl,
korrekt,
resultat, svar) og klikker på "resumer".
Det resumé der kommer frem, indeholder nu relevante
sætninger
med dine nøgleord (vel at mærke kun hvis de findes i
teksten).
Case 3:
Brugertilpasning
Du synes ikke at det resultat du får er helt godt. Fx. er du
ikke interessert i overskrifter, hverken de generelle eller dem der
indleder
hvert afsnit.
Nederst på siden for avanceret resumering finder du "vægtning
af diskursparametre". I vinduerne "Første linie" og "Typer
m. fed" skriver du 0 i stedet for hhv. 1000 og 10, så bliver
overskrifter ikke længere regnet som vigtigere end andre passager
i teksten.
På samme måde kan du vægte
nøgleord, dine egne
indtastede nøgleord og tal.
Til sidens top
Hvad kan man forvente af et DanSum-resumé
Der findes generelt 2 former for resumé: "extract"
og "abstract".
Et "abstract" er skabt ud fra tekstens
betydningsmæssige
indhold. At lave et "abstract" kræver derfor at man forstår
teksten, hvad enten det er en maskine eller et menneske der laver det.
I "abstractet" kan der være sammenkoblet emner og informationer
og
forekomme ord som ikke direkte forkommer i teksten.
Et"extract" derimod er et udtræk af
eksisterende
sætninge, fraser eller ord fra teksten. Modsat "abstraction"
behøver
man ikke at forstå teksten for at lave et "extract".
På nuværende tidspunkt er det ikke muligt for
maskiner at
forstå en tekst. Derfor er "extract"-metoden den der arbejdes med
i resumeringsmaskiner og altså også i DanSum.
Forventning: Du kan ikke forvente at
resuméet
er lige så godt som et menneskeskabt resumé.
Systemet bag DanSum indeholder mekanismer til at finde de
vigtigste
nøgleord i tekst og på baggrund af disse nøgleord
udtrække sætninger.
Forventning: Du kan derfor forvente at de
foreslåede
nøgleord er relevante og at de udtrukne sætninger er
centrale
for indholdet i teksten.
Du vælger selv hvor langt et resumé du vil
have, - hvor
mange procent af den originale tekst det skal være. Det er
relativt hvor mange procent der skal til for at få et godt
resultat.
Hvis teksten er kort, skal resuméet være på ca. 30%
for at blive af ordentlig kvalitet; mens man kan nøjes med
lavere procenter for lange tekster. Generelt kan man dog sige at
resuméet
skal være på mindst 2-4 sætninger.
Selvom du har valgt at resuméet skal være 30%,
kan det
hænde at du får et der er større eller mindre.
Grunden
til dette er at DanSum trækker hele sætninger ud af
teksten,
og den skærer
ikke en sætning over når de 30% er fundet.
Forventning: Du kan ikke forvente at få
et
resumé der både er kort og præcist.
DanSum kan pt. resumere dokumenter i html- eller i
tekst-format (ikke
i fx Word eller pdf). Men der kan opstå problemer
hvis
grafikken er for kompliceret. Hvis dette sker, kan du altid gå
ind
på pågældende hjemmeside, markere og kopiere den
tekst
der skal resumeres, og sætte den ind i tekstvinduet på
siden
for avanceret resumering.
Forventning: Du kan ikke forvente at du altid
får
en hjemmesides flotte layout med i resuméet.
DanSum kender ikke alle forkortelser og kan derfor ind i
mellem forveksle forkortelsespunktum
med sætingspunktum. Det gør at nogle sætninger
bliver
klippet over på forkerte steder.
Forventning: Du kan ikke forvente at en tekst
med sjældne
forkortelser (fx formler) altid bliver resumeret på en korrekt
måde.
Systemet bag DanSum forstår som sagt ikke den tekst
der resumeres,
derfor forstår det heller ikke hvad der refereres til i teksten.
Hvis en central sætning fx indeholder prononinet han, ved
systemet ikke hvem han er, heller ikke selvom navnet har
været
nævnt tidligere i teksten.
Forventning: Du kan opleve at resuméet
kan
virke forvirrende fordi du ikke kan se hvem eller hvad pronominerne
refererer
til.
Til sidens top
Hvordan læser man statistikken
Efter resuméet er der først et link til den tekst
der er blevet resumeret. Derefter er der lidt statistik der fx. kunne
se ud som følgende:
Lexicon: Danish
Words before 984
Words after 252
Summary length: 25%
Type of text: tidningstext
Keywords: kvinde stening dommer lokale
måned bevis
grund voldtaget
Der står:
- at der er blevet brugt en dansk ordbog til at genkende de
relevante
nøgleord
(Lexicon: Danish )
- at den originale tekst består af 984 ord
(Words before 984)
- at resuméet består af 252 ord
(Words after 252)
- at resuméet er 25% af den orginale tekst
(Summary length: 25%)
- at teksten er "tidningstext" (dvs. avistekst)
(Type of text: tidningstext)
- den række nøgleord som systemet har fundet
for teksten
(Keywords:kvinde stening dommer lokale
måned bevis grund
voldtaget)
De i kursiv er ord fra den danske ordbog; mens de
andre er ord
som systemet selv skønner er vigtige.
Hvis man selv indtaster nøgleord
som systemet
skal lede efter
og tage med i resuméet, står de fundne
former enten før "\":
Nøgleord: sharia
Keywords: sharia-domstol sharia-sager
sharia\ kvinde
stening
dommer grund måned voldtaget
lokale
Eller er skrevet med fed:
Nøgleord: stening
Keywords: stening kvinde dommer
lokale måned bevis grund
voldtaget
Til sidens top
Gode råd
Hvis du har problemer med at få resumeret en hjemmeside,
kan du gå ind på hjemmesiden, markere og kopiere den tekst
der skal resumeres, gå til siden for "avanceret resumering" og
sætte det kopierede ind i det øverste vindue.
Hvis du skal have resumeret en lang tekst er det bedst et
gøre
det kapitel for kapitel, så de forskellige emner ikke bliver
forvekslet og
blandet.
Til sidens top
Fremtidig udvidelse af DanSum
Vi arbejder for tiden på at lave en ny arkitektur for DanSum
og SweSum. Vi vil først og fremmest gøre systemet
mere
fleksibelt ved at lave en modulær opbygning med mere
sprogspecifikke
komponenter:
I stedet for at have en statisk ordbog vil vi bruge en lemmatiser
til at finde ords grundform, deres lemma . (Fx barn, barnet,
børn,
børnenes -> barn).
Vi vil desuden udvide systemet til at indeholde en navnegenkender
(en Named Entity Recogniser) for dansk. Med en navnegenkender kan man
fx
fokuserer på oplysninger om personer, steder, begivenheder,
adresser
eller tidspunkter.
På det sproguafhængige plan vil vi dels
implementere mulighed
for at resumere flere forskellige teksttyper og dels se på
resumering
af Word- og pdf-dokumenter.
Til sidens top