CST logo Center for Sprogteknologi
Centre for Language Technology


                                                          
    Vejledning  

Denne vejledning indeholder:


Generelt om DanSums hjemmeside

Hvad kan man bruge DanSum til

Hvad kan man forvente af et DanSum-resumé

Hvordan læser man statistikken

Gode råd

Fremtidig udvidelse af DanSum
 
 

DanSums hovedside                                       DanSums demoside


 

 
 
 

Generelt om DanSums hjemmeside 


DanSums hjemmeside består af 3 sider:

Hovedsiden hvor er er en kort introduktion.

Demosiden, hvor man:
- Indtaster adressen på den hjemmeside man vil have resumeret 
   (fx.  http://www.cst.dk/defsum/Information.html)

- Vælger hvor langt resuméet skal være
    (fx. 30% af originalteksten)

- Vælger hvilken teksttype der er tale om 
    (pt. kan man vælge mellem avis eller rapport)

Og får teksten resumeret.
 

Man kan desuden indtaste en række nøgleord som resumeringsmaskinen skal lede efter og tage med i resuméet.
 
 

Siden for "avanceret resumering", hvor man:
- Indsætter en tekst
   (man kan fx. kopiere tekst fra et word- eller pdf-dokument) 

   eller

- Vælger et af sine egne dokumenter 
    (pt. kun html- eller tekstformat)

- Kan indtaste søgeord 
   som resumeringsmaskinen skal lede efter 
   og tage med i resuméet

- Vælger hvilken teksttype der er tale om 
    (pt. kan man vælge mellem avis eller rapport)

- Angiver på hvilket sprog teksten er skrevet
    (dansk, engelsk, fransk, spansk, svensk, tysk 
     eller generisk, dvs. at der ikke er valgt et sprog)

- Vælger hvor langt resuméet skal være
    (fx. 30% af originalteksten, 50 ord eller 200 tegn)

- Vælger hvormange af tekstens nøgleord der skal udskrives
    (fx. 10 stk.)

- Vælger hvad resumeringsmaskinen skal prioritere 
    som vigtigt i teksten

Og får teksten resumeret
 
 
 

Til sidens top 

Hvad kan man bruge DanSum til


Case 1:
Overblik
Du har behov for at få et hurtigt overblik over indholdet af en tekst der enten er et af dine egne dokumenter eller et fra internettet. 

Hvis teksten er en hjemmeside indtaster du adressen,  hvis det er et af dine egne dokumenter, finder du det under "browse ..." og hvis det er et pdf- eller word-dokument kopierer du teksten og indsætter det i tekstvinduet. Derefter klikker du på "resumer" og får et resumé samt en række nøgleord udskrevet på skærmen. 

Nøgleordene giver et første indtryk af hvad teksten handler om, og resuméet viser tekstens vigtigste passager.
 
 

-¤¤¤ -Case 2:
Et specielt emne
Du er interesseret i et specielt emne i et dokument, fx. resultaterne af en undersøgelse. Derfor vil du have lavet et resumé der specielt omhandler det emne.

Du indtaster adressen på dokumentet eller kopierer en tekstdel ind i tekstvinduet. Derefter indtaster du de nøgleleord der karakteriserer det emne du er interesseret i (det kunne fx. være: fejl, korrekt, resultat, svar) og klikker på "resumer".

Det resumé der kommer frem, indeholder nu relevante sætninger med dine nøgleord (vel at mærke kun hvis de findes i teksten).
 
 

-¤¤¤ -Case 3:
Brugertilpasning
Du synes ikke at det resultat du får er helt godt. Fx. er du ikke interessert i overskrifter, hverken de generelle eller dem der indleder hvert afsnit.

Nederst på siden for avanceret resumering finder du "vægtning af diskursparametre". I vinduerne "Første linie" og "Typer m. fed" skriver du 0 i stedet for hhv. 1000 og 10, så bliver overskrifter ikke længere regnet som vigtigere end andre passager i teksten.

På samme måde kan du vægte nøgleord, dine egne indtastede nøgleord og tal.
 
 

Til sidens top 

Hvad kan man forvente af et DanSum-resumé


Der findes generelt 2 former for resumé: "extract" og "abstract".

Et "abstract" er skabt ud fra tekstens betydningsmæssige indhold. At lave et "abstract" kræver derfor at man forstår teksten, hvad enten det er en maskine eller et menneske der laver det. I "abstractet" kan der være sammenkoblet emner og informationer og forekomme ord som ikke direkte forkommer i teksten.

Et"extract" derimod er et udtræk af eksisterende sætninge, fraser eller ord fra teksten. Modsat "abstraction" behøver man ikke at forstå teksten for at lave et "extract". 

På nuværende tidspunkt er det ikke muligt for maskiner at forstå en tekst. Derfor er "extract"-metoden den der arbejdes med i resumeringsmaskiner og altså også i DanSum.

Forventning:  Du kan ikke forvente at resuméet er lige så godt som et menneskeskabt resumé.
 
 

-¤¤¤ -Systemet bag DanSum indeholder mekanismer til at finde de vigtigste nøgleord i tekst og på baggrund af disse nøgleord udtrække sætninger.

Forventning:  Du kan derfor forvente at de foreslåede nøgleord er relevante og at de udtrukne sætninger er centrale for indholdet i teksten.
 
 

 -¤¤¤ -Du vælger selv hvor langt et resumé du vil have, - hvor mange procent af den  originale tekst det skal være. Det er relativt hvor mange procent der skal til for at få et godt resultat. Hvis teksten er kort, skal resuméet være på ca. 30% for at blive af ordentlig kvalitet; mens man kan nøjes med lavere procenter for lange tekster. Generelt kan man dog sige at resuméet skal være på mindst 2-4 sætninger. 

Selvom du har valgt at resuméet skal være 30%, kan det hænde at du får et der er større eller mindre. Grunden til dette er at DanSum trækker hele sætninger ud af teksten, og den skærer ikke en sætning over når de 30% er fundet.

Forventning:  Du kan ikke forvente at få et resumé der både er kort og præcist.
 
 

-¤¤¤ -DanSum kan pt. resumere dokumenter i html- eller i tekst-format (ikke i fx Word eller pdf). Men der kan opstå problemer hvis grafikken er for kompliceret. Hvis dette sker, kan du altid gå ind på pågældende hjemmeside, markere og kopiere den tekst der skal resumeres, og sætte den ind i tekstvinduet på siden for avanceret resumering.

Forventning:  Du kan ikke forvente at du altid får en hjemmesides flotte layout med i resuméet.
 
 

-¤¤¤ -DanSum kender ikke alle forkortelser og kan derfor ind i mellem forveksle forkortelsespunktum med sætingspunktum. Det gør at nogle sætninger bliver klippet over på forkerte steder.

Forventning:  Du kan ikke forvente at en tekst med sjældne forkortelser (fx formler) altid bliver resumeret på en korrekt måde.
 
 

-¤¤¤-Systemet bag DanSum forstår som sagt ikke den tekst der resumeres, derfor forstår det heller ikke hvad der refereres til i teksten. Hvis en central sætning fx indeholder prononinet han, ved systemet ikke hvem han er, heller ikke selvom navnet har været nævnt tidligere i teksten.

Forventning:  Du kan opleve at resuméet kan virke forvirrende fordi du ikke kan se hvem eller hvad pronominerne refererer til.
 
 

Til sidens top 

Hvordan læser man statistikken


Efter resuméet er der først et link til den tekst der er blevet resumeret. Derefter er der lidt statistik der fx. kunne se ud som følgende:

Lexicon: Danish 
Words before 984 
Words after 252
Summary length: 25% 
Type of text: tidningstext 
Keywords: kvinde stening dommer lokale måned bevis grund voldtaget 
 
 

Der står:
- at der er blevet brugt en dansk ordbog til at genkende de relevante 
    nøgleord
    (Lexicon: Danish )

- at den originale tekst består af 984 ord
    (Words before 984)

- at resuméet består af 252 ord
    (Words after 252)

- at  resuméet er 25% af den orginale tekst
    (Summary length: 25%)

- at teksten er "tidningstext" (dvs. avistekst)
    (Type of text: tidningstext)

- den række nøgleord som systemet har fundet for teksten 
    (Keywords:kvinde stening dommer lokale måned bevis grund
     voldtaget) 
    De i kursiv er ord fra den danske ordbog; mens de andre er ord 
    som systemet selv skønner er vigtige.

    Hvis man selv indtaster nøgleord som systemet skal lede efter 
    og tage med i resuméet, står de fundne former enten før "\":

    Nøgleord:  sharia
    Keywords: sharia-domstol sharia-sager sharia\ kvinde stening 
    dommer grund måned voldtaget lokale

    Eller er skrevet med fed:

    Nøgleord: stening
    Keywords: stening kvinde dommer lokale måned bevis grund 
    voldtaget
 
 

Til sidens top 

Gode råd


Hvis du har problemer med at få resumeret en hjemmeside, kan du gå ind på hjemmesiden, markere og kopiere den tekst der skal resumeres, gå til siden for "avanceret resumering" og sætte det kopierede ind i det øverste vindue.

-¤¤¤-

Hvis du skal have resumeret en lang tekst er det bedst et gøre det kapitel for kapitel, så de forskellige emner ikke bliver forvekslet og blandet. 
 
 

Til sidens top 

Fremtidig udvidelse af DanSum


Vi arbejder for tiden på at lave en ny arkitektur for DanSum og SweSum. Vi vil først  og fremmest gøre systemet mere fleksibelt ved at lave en modulær opbygning med mere sprogspecifikke komponenter: 

I stedet for at have en statisk ordbog vil vi bruge en lemmatiser til at finde ords grundform, deres lemma . (Fx barn, barnet, børn, børnenes -> barn).

Vi vil desuden udvide systemet til at indeholde en navnegenkender (en Named Entity Recogniser) for dansk. Med en navnegenkender kan man fx fokuserer på oplysninger om personer, steder, begivenheder, adresser eller tidspunkter.

På det sproguafhængige plan vil vi dels implementere mulighed for at resumere flere forskellige teksttyper og dels se på resumering af Word- og pdf-dokumenter.
 

Til sidens top


Blå linie
Njalsgade 80 - DK-2300 KBH S - Tlf: +45 35329090 - Fax: +45 35329089 - webmaster@cst.dk