Download af software
GNU
Softwaren i følgende liste er under GNU General Public License (GPL).
- CST's lemmatiser
- Pakken omfatter kildeteksten (C++) til CST's lemmatiser. Efter kompilering til dit foretrukne platform (Linux, Unix, Windows) kan du selv træne programmet. Til sprog som dansk, norsk og svensk skal man bruge store fuldformsordlister for at opnå et hæderligt resultat. Kontakt CST hvis du vil bruge CST's lingvistiske ressurser til lemmatiseren. Disse er ikke dækket af GPL.
- Bracmat
-
Bracmat er et fortolket programmeringssprog som er udviklet af en af CST's medarbejdere
i egen regi siden 1986. Oprindeligt tænkt som Computer Algebra system har
det vist sig at være aldeles brugbart som værktøj til håndtering
af sprog. Foruden dets oprindelige formål indenfor den Almene Relativitetsteori
- beregning af Ricci tensoren fra givne metrikker - er det blevet anvendt til implementering
af en dialog-manager i Staging-projektet, til analyse af
tekster i "Kontroleret Sprog"-delen af VID-projektet og til automatisk
fejlrettelse i CST's mange html-sider. Læs mere
om Bracmat.
Andre licenser end GNU
CST bruger nogle gratis tredjepartsprogrammer som vi har tilpasset til
vores behov, typisk for at kunne køre programmet på et platform som det
ikke var skrevet til. Disse programmer vil vi gerne give videre og det
sker under deres oprindelige licensbetingelser.
Det drejer sig om følgende programmer:
- POS-tagger skrevet af Eric Brill
- CST bruger POS-taggeren i rigtig mange sammenhænge til analyse af
både engelske (med Eric Brill's lingvistiske ressurser, evt. med
modifikationer) og danske (med CST's lingvistiske ressurser)
tekster. Distributionen omfatter Eric Brills oprindelige
distributionsfil og en zip-fil med CST's tilpasninger. Bemærk at
disse tilpasninger ikke berører træningsdelen! Hovedtræk i
tilpasningerne er:
- Omformattering fra UNIX-stil C til standard C++,
- Erstatning af nogle UNIX-specifikke funktioner med standard C
funktioner,
- Bedre håndtering af store bogstaver i hvad der må formodes at være
overskrifter, og
- Oprettelsen af en optionsfil "xoptions" for at gøre kildeteksten sprog- og tagset-uafhængigt.
- CASS parser skrevet af Steven Abney
- CST har bl.a. brugt CASS-parseren i VID-projektet til markering af
navneordsfraser i store tekstmængder. Distributionen omfatter
Steven Abneys oprindelige distributionsfil og en zip-fil med CST's
tilpasninger. Tilpasningerne er minimale men relevante hvis man
vil kompilere programmet med en af de nyere GNU-C++ kompilere. (BEMÆRK: efter vi havde lavet vores tilpasninger,
har også Steven Abney selv udbragt en version som skulle være kompatibel med nyere versioner af GNU C++ kompileren.
Det viser sig dog at GNU++ kompilere nyere end version 4 ikke vil kompilere hværken CST's version af CASS-taggeren eller
Steven Abneys egen.)
Lingvistiske ressurser
Hvis du er interesseret i lingvistiske ressurser som er udviklet
under CST's regi (STO, træningsdata til POS-taggeren eller
lemmatiseren, grammatikker til np-genkenderen, regler til navnegenkenderen) bedes du tage
kontakt med Hanne Fersøe (hanne@cst.dk).
|