Download af software

GNU The Dynamic Duo: The Gnu and the Penguin in flight

Softwaren i følgende liste er under GNU General Public License (GPL).

CST's lemmatiser
Pakken omfatter kildeteksten (C++) til CST's lemmatiser. Efter kompilering til dit foretrukne platform (Linux, Unix, Windows) kan du selv træne programmet. Til sprog som dansk, norsk og svensk skal man bruge store fuldformsordlister for at opnå et hæderligt resultat. Kontakt CST hvis du vil bruge CST's lingvistiske ressurser til lemmatiseren. Disse er ikke dækket af GPL.
Bracmat
Bracmat er et fortolket programmeringssprog som er udviklet af en af CST's medarbejdere i egen regi siden 1986. Oprindeligt tænkt som Computer Algebra system har det vist sig at være aldeles brugbart som værktøj til håndtering af sprog. Foruden dets oprindelige formål indenfor den Almene Relativitetsteori - beregning af Ricci tensoren fra givne metrikker - er det blevet anvendt til implementering af en dialog-manager i Staging-projektet, til analyse af tekster i "Kontroleret Sprog"-delen af VID-projektet og til automatisk fejlrettelse i CST's mange html-sider. Læs mere om Bracmat.

Andre licenser end GNU

CST bruger nogle gratis tredjepartsprogrammer som vi har tilpasset til vores behov, typisk for at kunne køre programmet på et platform som det ikke var skrevet til. Disse programmer vil vi gerne give videre og det sker under deres oprindelige licensbetingelser.

Det drejer sig om følgende programmer:

POS-tagger skrevet af Eric Brill
CST bruger POS-taggeren i rigtig mange sammenhænge til analyse af både engelske (med Eric Brill's lingvistiske ressurser, evt. med modifikationer) og danske (med CST's lingvistiske ressurser) tekster. Distributionen omfatter Eric Brills oprindelige distributionsfil og en zip-fil med CST's tilpasninger. Bemærk at disse tilpasninger ikke berører træningsdelen! Hovedtræk i tilpasningerne er:
  • Omformattering fra UNIX-stil C til standard C++,
  • Erstatning af nogle UNIX-specifikke funktioner med standard C funktioner,
  • Bedre håndtering af store bogstaver i hvad der må formodes at være overskrifter, og
  • Oprettelsen af en optionsfil "xoptions" for at gøre kildeteksten sprog- og tagset-uafhængigt.
CASS parser skrevet af Steven Abney
CST har bl.a. brugt CASS-parseren i VID-projektet til markering af navneordsfraser i store tekstmængder. Distributionen omfatter Steven Abneys oprindelige distributionsfil og en zip-fil med CST's tilpasninger. Tilpasningerne er minimale men relevante hvis man vil kompilere programmet med en af de nyere GNU-C++ kompilere. (BEMÆRK: efter vi havde lavet vores tilpasninger, har også Steven Abney selv udbragt en version som skulle være kompatibel med nyere versioner af GNU C++ kompileren. Det viser sig dog at GNU++ kompilere nyere end version 4 ikke vil kompilere hværken CST's version af CASS-taggeren eller Steven Abneys egen.)

Lingvistiske ressurser

Hvis du er interesseret i lingvistiske ressurser som er udviklet under CST's regi (STO, træningsdata til POS-taggeren eller lemmatiseren, grammatikker til np-genkenderen, regler til navnegenkenderen) bedes du tage kontakt med Hanne Fersøe (hanne@cst.dk).


Blå linie
Njalsgade 140-142, bygn. 25, DK-2300 KBH S
Tlf: +45 35329090 - Fax: +45 35329089
Valid XHTML 1.0 Strict