Text Tonsorium - Changelog

2022-08-23
Anvendt https://github.com/michmech/lemmatization-lists.git som træningsmateriale til CSTlemma. Nye sprog: asturisk, katalansk, walisisk, irsk, skotsk gælisk, galicisk, mansk. Forbedret: svensk.
2022-08-23
Løst: nogle gange blev der vist for få kandidatarbejdsgange når man havde zoomet-in, fordi der uden grund var blevet tilføjet krav til målet.
2022-07-22
Forside: tilføjet Clarin-DK og Text Tonsorium logoer, med links. "Text Tonsorium" fjernet fra overskriften.
2022-07-20
Text Tonsorium forsøger at give en hjælpende forklaring hvis der ikke bliver fundet arbejdsgange.
2022-07-19
Vi antager at ortografien af visse sprog (tjekkisk, engelsk, moderne græsk, fransk, spansk og tysk) ikke har ændret sig væsentligt siden 1800-tallet, hvorfor vi ligestiller periodeværdierne 'moderne tid' og 'efterkrigstiden'.
2022-05-10
Nu kan Text Tonsorium læse fra URL'er med ikke-ASCII tegn.
2022-05-09
Nyt værktøj som kopierer ord, lemma og pos fra CONLL input til tre kolonner.
2022-04-22
Accepter input som har et træk med flere værdier, som fx connl-filer med adskillige indholdstyper (form, lemma, pos, o.s.v.).
2022-04-13
PDFMiner, Cuneiform og Tesseract 'frastøder' hinanden og optræder ikke i de samme workflows.
2022-04-12
'Evt. i kombination med andre værdier' bliver nu ignoreret hvis man ikke valger nogen værdi overhovedet. Dette løser et problem med 'zooming in' på målet.
2022-04-11
Tesseract: version 4 --> 5.1.0
2022-03-12
RTFreader: tokenisering uden også at segmentere. (Kræver input Annotationstype 'Sætningssegmenter', ikke 'Ingen annotation'.)
2022-03-11
CSTlemma: tilføjelse af en linje per sætning-format.
2022-03-08
Linjeafgrænsning som i Windows tekstfiler (CRLF) læses som *n?x linjeafgrænsning (LF) når ORG mode input analyseres for at detektere fx sproget.
2022-01-28
Begrænsning af 'lempos' til ikke-engelsk og ikke-nutidsdansk. Lempos anbefales ikke som alternativ til andre POS-taggere.
2022-01-26
De latinske tekster i 'Skrift og tekst i tid og rum'-projektet bliver nu også annoteret med morfologiske træk.
2022-01-14
Valglisterne på input/mål specifikationssiden bliver midlertidigt gemt i stedet for genberegnet.
2022-01-12
log4j 2.16.0 -> 2.17.1
2021-12-30b
Rettet fejl ifm. memoisering af arbejdsgange som er kendetegnet ved det sidste værktøj i stedet for den ønskede output.
2021-12-30a
Arbejdsgange som aktiverer samme værktøjet på flere måder som kun er forskellige på subspecifikationsniveauet bliver ignoreret. Fx en tokeniser som skal tokenisere 'simpel' og ifølge Penn Treebank regler.
2021-12-20
Den angrebsfølsomme log4j (Java logning) software er erstattet med forbedret version 2.16.0.
2021-12-03
Når man bestilte utvetydig output, ville CSTlemma alligevel tilbyde flere lemmaer hvis de var lige sandsynlige. Nu vælger CSTlemma at tilbyde det første i sådanne tilfælde.
2021-11-27
Begyndelse af changelog.