Download software
Software under GNU General Public License (GPL):
- CST's RTFreader
-
Pakken omfatter kildeteksten (C++) til CST's RTFreader. Programmet Kan læse en flad
tekstfil eller RTF (Rich Text Format)-fil og konvertere den til segmenteret tekst
med én sætning per linje. I fravær af interpunktionstegn udnytter programmet lay-out
oplysninger såsom skriftstørrelse og -type til at bestemme hvor sætningsgrænsen
går. Programmet kan optionelt tokenisere output, og bruger nogle heuristikker til
at afgøre om punktummer hører til et token eller er en sætningsafgrænser. Man kan
supplere tokeniseringen med lister af forkortelser og mwu'er. Sådanne sprogafhængige
resurser er ikke inkluderet i pakken.
- CSTlemma
-
CST's lemmatiser anvender affiksregler (affiks: prefiks, infiks, suffiks, circumfiks).
Du kan herfra downloade affiksregler for følgende sprog:
afrikaans, albansk, asturisk, belarusisk, bulgarsk, dansk, engelsk, estisk, farsi, fransk, færørsk, galisisk, georgisk, græsk, irsk, islandsk, italiansk, catalansk, latin,
makedonsk, manx, middelnedertysk, nederlandsk, polsk, portugisisk, romansk, russisk, serbisk, skotsk, slovakisk,
slovensk, spansk, tjekisk, tysk, ukrainsk, ungarsk, walisisk.
Reglerne er frembragt ved supervised learning ved hjælp af en fuldform - lemma liste.
I denne folder finder du lemmatiseringsregler
og i nogle tilfælde ordbøger i binær format som lemmatiseren kan anvende. Disse
ordbøger er ikke nødvendige for at lemmatiseren kan producere output, men kan forbedre
kvaliteten. Listen er ikke komplet. Find alle resourcer i Github.
Hent den seneste version af kildeteksten på
GitHub .
Du kan bruge tinylemmatizer fra Pythonprogrammer.
Modulet bruger de samme lemmatiseringsregler som CSTlemma,
men har ingen af de mange optioner som CSTlemma har.
Hvis du selv vil træne affiksregler for lemmatiseren (tænk på tysk abgebrannt
→ abbrennen) skal du udover cstlemma også
bruge programmet affixtrain.
Man skal bruge store fuldformsordlister (>100 000) for at opnå et hæderligt
resultat.
Jongejan, Bart and Dalianis, Hercules:
Automatic training of lemmatization rules that handle morphological changes in pre-,
in- and suffixes alike. In Proceedings of the Joint Conference of the 47th Annual
Meeting of the ACL and the 4th International Joint Conference on Natural Language
Processing of the AFNLP. Suntec, Singapore : Association for Computational
Linguistics, 2009. s. 145-153
- taggerXML
-
CST bruger Eric Brill s POS-tagger
i rigtig mange sammenhænge til analyse af både engelske (med Eric Brill's lingvistiske
ressurser, evt. med modifikationer) og danske (med CST's lingvistiske ressurser)
tekster. Distributionen omfatter Eric Brills oprindelige distributionsfil og en
zip-fil med CST's tilpasninger. Bemærk at disse tilpasninger ikke berører træningsdelen!
Hovedtræk i tilpasningerne er:
- Omformattering fra UNIX-stil C til standard C++,
- Erstatning af nogle UNIX-specifikke funktioner med standard C funktioner,
- Bedre håndtering af store bogstaver i hvad der må formodes at være overskrifter,
og
- Oprettelsen af en optionsfil "xoptions" for at gøre kildeteksten sprog- og tagset-uafhængigt.
- Mulighed for at læse ogs skrive i XML-format, hvor man kan vælge at skrive POS-tagget
i et attribut til ord-elementet.
Hent den allerseneste version af kildeteksten på
GitHub .
De lingvistiske resurser der gør taggeren i stand til at tagge dansk tekt, er baseret
på sprogresurser (Parole-korpusset) fra DSL. Se
korpus.dsl.dk.
- Bracmat
-
Bracmat er et fortolket programmeringssprog som er udviklet af Bart Jongejan siden
1986. Oprindeligt tænkt som Computer Algebra system har det vist sig at være aldeles
brugbart som værktøj til håndtering af sprog. Foruden dets oprindelige formål indenfor
den Almene Relativitetsteori - beregning af Ricci tensoren fra givne metrikker -
er det blevet anvendt til implementering af en dialog-manager i Staging-projektet,
til analyse af tekster i "Kontroleret Sprog"-delen af VID-projektet,
til automatisk fejlrettelse i CST's mange html-sider og til validering af store
korpora. Også "udenfor huset" har Bracmat vist sig at være nyttigt: programmet bruges
til at identificere personer, instanser o.l. i pre-taggede tekser som skal anonymiseres.
Den til dato mest avancerede anvendelse er som workflow-planner og -afvikler i CLARIN-DK Text Tonsoriums værktøjsmodul, hvor brugeren ikke behøver
at vælge mellem værktøjer, som brugeren muligvis ikke har nok kendskab til, men
kan nøjes med at specificere det ønskede output, hvorefter værktøjsmodulet beregner
alle mulige, ikke nødvendigvis i sekventielle, sammensætninger af værktøjer som
brugeren kan vælge imellem.
Find tidligere (1986-2012) versioner af kildeteksten her.
Læs mere om Bracmat.
Papers:
Jongejan, Bart: Intricate
Natural Language Processing made easier with Symbolic Computation software: Pattern
Matching lessons from Bracmat.
CLIN26. Amsterdam, 2015
Bart Jongejan. 2013. Workflow
management in CLARIN-DK. In Proceedings of the workshop on Nordic language research
infrastructure at NODALIDA 2013, volume 089 of NEALT Proceedings Series,
pages 11–20. Northern European Association for Language Technology (NEALT), May.
Bart Jongejan. 2016. Implementation of
a workflow management system for non-expert users. In Proceedings of the Workshop
on Language Technology Resources and Tools for Digital Humanities (LT4DH),
pages 101–108, Osaka, Japan, December. The COLING 2016 Organizing Committee.
- makeUTF8
-
Konverterer UTF-16 (BE/LE), UTF-32 (BE/LE), ISO-8859-N til UTF-8. Fjerner BOM og
surrogate pairs fra UTF-8, og konverterer et codepoint mellem U-D800 og U-DBFF fulgt
af et codepoint mellem U-DC00 og U-DFFF til en gyldig codepoint > U-FFFF.
- Text Tonsorium
-
Webtjeneste som beregner værktøjsarbejdsgange som fører fra en given input file
til et mål som defineres af brugeren. Den valgte arbejdsgang afvikles, hvorefter brugeren
får mulighed for at downloade resultatet. Tjenesten er en del af Clarin-DK og kan findes på denne URL:
https://cst.dk/texton/.
Der er også adgang via Clarin.eu Language Resource Switchboard.
Lingvistiske ressurser
Hvis du er interesseret i lingvistiske ressurser som er udviklet under CST's regi
(STO, træningsdata lemmatiseren, grammatikker til np-genkenderen, regler til navnegenkenderen)
bedes du tage kontakt med Bart Jongejan (bartj {at} hum ku dk).
|