Download CST's NLP software

Institut for Nordiske Studier og Sprogvidenskab Humanistisk Fakultet Københavns Universitet English

Download software

Software under GNU General Public License (GPL):

Pakken omfatter kildeteksten (C++) til CST's RTFreader. Programmet Kan læse en flad tekstfil eller RTF (Rich Text Format)-fil og konvertere den til segmenteret tekst med én sætning per linje. I fravær af interpunktionstegn udnytter programmet lay-out oplysninger såsom skriftstørrelse og -type til at bestemme hvor sætningsgrænsen går. Programmet kan optionelt tokenisere output, og bruger nogle heuristikker til at afgøre om punktummer hører til et token eller er en sætningsafgrænser. Man kan supplere tokeniseringen med lister af forkortelser og mwu'er. Sådanne sprogafhængige resurser er ikke inkluderet i pakken.

CSTlemma

CST's lemmatiser anvender affiksregler (affiks: prefiks, infiks, suffiks, circumfiks). Du kan herfra downloade affiksregler for følgende sprog:

afrikaans, albansk, asturisk, belarusisk, bulgarsk, dansk, engelsk, estisk, farsi, fransk, færørsk, galisisk, georgisk, græsk, irsk, islandsk, italiansk, catalansk, latin, makedonsk, manx, middelnedertysk, nederlandsk, polsk, portugisisk, romansk, russisk, serbisk, skotsk, slovakisk, slovensk, spansk, tjekisk, tysk, ukrainsk, ungarsk, walisisk.

Reglerne er frembragt ved supervised learning ved hjælp af en fuldform - lemma liste.
I denne folder finder du lemmatiseringsregler og i nogle tilfælde ordbøger i binær format som lemmatiseren kan anvende. Disse ordbøger er ikke nødvendige for at lemmatiseren kan producere output, men kan forbedre kvaliteten. Listen er ikke komplet. Find alle resourcer i Github.

Hent den seneste version af kildeteksten på GitHub . Du kan bruge tinylemmatizer fra Pythonprogrammer. Modulet bruger de samme lemmatiseringsregler som CSTlemma, men har ingen af de mange optioner som CSTlemma har.

Hvis du selv vil træne affiksregler for lemmatiseren (tænk på tysk abgebrannt → abbrennen) skal du udover cstlemma også bruge programmet affixtrain. Man skal bruge store fuldformsordlister (>100 000) for at opnå et hæderligt resultat.

Jongejan, Bart and Dalianis, Hercules: Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore : Association for Computational Linguistics, 2009. s. 145-153

taggerXML

CST bruger Eric Brill s POS-tagger i rigtig mange sammenhænge til analyse af både engelske (med Eric Brill's lingvistiske ressurser, evt. med modifikationer) og danske (med CST's lingvistiske ressurser) tekster. Distributionen omfatter Eric Brills oprindelige distributionsfil og en zip-fil med CST's tilpasninger. Bemærk at disse tilpasninger ikke berører træningsdelen! Hovedtræk i tilpasningerne er:

Omformattering fra UNIX-stil C til standard C++,
Erstatning af nogle UNIX-specifikke funktioner med standard C funktioner,
Bedre håndtering af store bogstaver i hvad der må formodes at være overskrifter, og
Oprettelsen af en optionsfil "xoptions" for at gøre kildeteksten sprog- og tagset-uafhængigt.
Mulighed for at læse ogs skrive i XML-format, hvor man kan vælge at skrive POS-tagget i et attribut til ord-elementet.

Hent den allerseneste version af kildeteksten på GitHub .

De lingvistiske resurser der gør taggeren i stand til at tagge dansk tekt, er baseret på sprogresurser (Parole-korpusset) fra DSL. Se korpus.dsl.dk.

Bracmat

Bracmat er et fortolket programmeringssprog som er udviklet af Bart Jongejan siden 1986. Oprindeligt tænkt som Computer Algebra system har det vist sig at være aldeles brugbart som værktøj til håndtering af sprog. Foruden dets oprindelige formål indenfor den Almene Relativitetsteori - beregning af Ricci tensoren fra givne metrikker - er det blevet anvendt til implementering af en dialog-manager i Staging-projektet, til analyse af tekster i "Kontroleret Sprog"-delen af VID-projektet, til automatisk fejlrettelse i CST's mange html-sider og til validering af store korpora. Også "udenfor huset" har Bracmat vist sig at være nyttigt: programmet bruges til at identificere personer, instanser o.l. i pre-taggede tekser som skal anonymiseres. Den til dato mest avancerede anvendelse er som workflow-planner og -afvikler i CLARIN-DK Text Tonsoriums værktøjsmodul, hvor brugeren ikke behøver at vælge mellem værktøjer, som brugeren muligvis ikke har nok kendskab til, men kan nøjes med at specificere det ønskede output, hvorefter værktøjsmodulet beregner alle mulige, ikke nødvendigvis i sekventielle, sammensætninger af værktøjer som brugeren kan vælge imellem.

Find tidligere (1986-2012) versioner af kildeteksten her.

Læs mere om Bracmat.

Papers:

Jongejan, Bart: Intricate Natural Language Processing made easier with Symbolic Computation software: Pattern Matching lessons from Bracmat. CLIN26. Amsterdam, 2015

Bart Jongejan. 2013. Workflow management in CLARIN-DK. In Proceedings of the workshop on Nordic language research infrastructure at NODALIDA 2013, volume 089 of NEALT Proceedings Series, pages 11–20. Northern European Association for Language Technology (NEALT), May.

Bart Jongejan. 2016. Implementation of a workflow management system for non-expert users. In Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH), pages 101–108, Osaka, Japan, December. The COLING 2016 Organizing Committee.

makeUTF8

Konverterer UTF-16 (BE/LE), UTF-32 (BE/LE), ISO-8859-N til UTF-8. Fjerner BOM og surrogate pairs fra UTF-8, og konverterer et codepoint mellem U-D800 og U-DBFF fulgt af et codepoint mellem U-DC00 og U-DFFF til en gyldig codepoint > U-FFFF.

Text Tonsorium

Webtjeneste som beregner værktøjsarbejdsgange som fører fra en given input file til et mål som defineres af brugeren. Den valgte arbejdsgang afvikles, hvorefter brugeren får mulighed for at downloade resultatet. Tjenesten er en del af Clarin-DK og kan findes på denne URL: https://cst.dk/texton/. Der er også adgang via Clarin.eu Language Resource Switchboard.

Lingvistiske ressurser

Hvis du er interesseret i lingvistiske ressurser som er udviklet under CST's regi (STO, træningsdata lemmatiseren, grammatikker til np-genkenderen, regler til navnegenkenderen) bedes du tage kontakt med Bart Jongejan (bartj {at} hum ku dk).

Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Tlf: +45 35329090

Tilgængelighed