GRASP: GRAmmar SPecifications for Danish

Baggrund

Der foreligger endnu ikke nogen større formel grammatik for dansk, som knytter an til en internationalt etableret sprogteori, og som tillader automatisk behandling af det danske sprog. Dette er uheldigt af flere årsager. Dansk har kun i beskedent omfang været gjort til genstand for formel beskrivelse, hvorfor formelt orienterede danske lingvister har meget lidt litteratur at arbejde ud fra og hidtil kun har bidraget til teoridannelse inden for området i begrænset omfang. Endvidere er en datamatisk grammatik en forudsætning for udvikling af god sprogteknologi for dansk.

GRASP-projektet sigter mod at udvikle formelle grammatikalske beskrivelser (specifikationer) for centrale dele af det danske sprog i henhold til to "state-of-the-art" lingvistiske teorier, nemlig HPSG og LFG. Specifikationerne bliver udviklet på de to grammatikudviklingssystemer LKB og Medley.

Metodologi

Udviklingen af grammatikkerne vil tage udgangspunkt i eksisterende formelle beskrivelser, som nogle af projektets deltagere har udviklet inden for det EU-støttede projekt LINDA. LINDA har produceret beskrivelser af en række basale fænomener i dansk morfologi og syntaks i en generisk unifikationsbaseret formalisme, som forholdsvis nemt kan tilpasses HPSG eller LFG. Imidlertid har disse beskrivelser også svagheder og mangler, og mere analysearbejde er derfor påkrævet om en del emner, fx behandling af ordrækkefølge på dansk, behandling af determinativer og kvantorer, forholdet mellem grammatisk kongruens og køn og behandling af funktionsordenes semantik for blot at nævne nogle.

Samarbejde med andre projekter

Det forventes, at projektet vil kunne opnå samarbejde med to internationale datalingvistiske miljøer. Det ene er Stanford University, hvor HPSG er blevet udviklet, og hvorfra LKB-systemet bliver distribueret. Centret har allerede en uformel aftale med Stanford University om at bruge systemet.

Det andet miljø er et samarbejdsprojekt (ParGram) mellem forskere fra Xerox PARC i Palo Alto, Xerox Research Centre Europe i Grenoble, universitetet i Stuttgart og universitetet i Bergen.
ParGram-projektets mål er, at producere dækkende LFG- grammatikker for engelsk, tysk, fransk og norsk. Grammatikkerne er parallelle, idet de er udviklet ud fra et fælles sæt af grammatiske analyser, og de bliver testet på ensartede tekster på alle de involverede sprog.

CST kontakt

Patrizia Paggio patrizia @ cst.dk


Blå linie
Njalsgade 140-142, bygn. 25, DK-2300 KBH S
Tlf: +45 35329090 - Fax: +45 35329089
Valid HTML 4.01 Strict