NP-genkender


En NP-genkender samler leddene i et NP, et substantivsyntagme, til en enhed. Fx,

"Den sorte kats mindste killing har en meget tyk mave."

[NP1
    [PRON_DEMO Den den]
    [ADJ sorte sort]
    [N_INDEF_SING_GEN kats kat]
    [ADJ mindste mindst]
    [N_INDEF_SING killing killing]]
  [V_PRES har have]
  [NP1
     [PRON_UBST en en]
     [ADJ meget megen]
     [ADJ tyk tyk]
     [N_INDEF_SING mave mave]]
  [TEGN . .]

Eller illustreret mere overskueligt:

NP[Den sorte kats mindste killing] har NP[en meget tyk mave]


NP'erne i en tekst fungerer typisk som subjekt og objekt, så ved at identificere disse størrelser samt verberne, har man en grov analyse af sætningen. Men NP-genkendelse kan også bruges i fx informationssøgning. Specielt kan forholdet mellem sammensatte ord og deres NP'synonymer være relevante. Fx byrådsmedlem vs. medlem af byrådet.

CST's NP-genkender er implementeret i Cass der er en finite-state chunk parser. Systemet i sig selv er sprogneutralt; men NP- grammatikken er modelleret over NP'er fundet i det danske Parole-korpus.

Grammatikken identificerer simple NP'er hvis udstrækning går fra NP'ets start til dets kerne. Relativsætninger og koordinationer af NP'er indfanges ikke, men forsøgsvis medtages egennavne i postposition samt første præpositionssyntagme efter kernen.

Mere information

Rapport om NP-genkenderen brugt i søgning

Vejledning til det danske Parole-korpus

Læs mere om indholdsbaseret søgning på CST's side om Ontoquery og om forholdet mellem NP'er og sammensatte ord under VID-projektet.

Kontakt: Dorte Haltrup Hansen
E-mail:   dorteh@hum.ku.dk


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Valid XHTML 1.0 Strict