Text Tonsorium - Changelog

2024-03-06
Forbedret oversættelse fra UD-pipe-tags til CST tags (plus lidt mere info); kigger på morfologi og ordform.
2024-03-01
Rettet fejl: token med ikke-alfabetiske tegn blev delt op i mindre bider.
2024-02-05
'Repetitiveness checker'- værktøjet kan nu tage flere inputfiler af samme type. I så fald viser det ordsekvenser der forekommer i flere filer.
2024-02-05
Nu kan man registrere værktøjer der kan tage flere inputfiler af samme type, fx sammenligningsværktøjer.
2023-12-05
Rettet fejl ved generering af 'xml:id' attributter i <exclude> elementer.
2023-12-04
(1) Forbedret håndtering af input hvis navne ikke er havnet i kolonnen længst til venstre. Sådanne filer kunne ikke behandles hvis man redigerede inputbeskrivelsen. (2) Readme.txt filen er fjernet fra den zippede output. (3) TEI-filer med <w> (token) tags og ingen andre lingvistiske annotationer bliver behandlet som 'tekst', ikke som 'tokeniseret tekst'.
2023-11-24
Visuelt forbedret SVG diagram af arbejdsgang, med animering. På samme side: mere læsbar beskrivelse af arbejdsgang.
2023-09-06
Vis diagram af arbejdsgang som SVG vektorgrafik med mouseover effekter.
2023-02-19
Tilføjet hviderussisk. Træningsmateriale hentet fra: https://github.com/Belarus/GrammarDB.
2023-02-08
Træning data til CSTlemma for færøsk udvidet: https://github.com/hinrikur/far-ABLTagger/blob/master/inflection/edfm-v0.1/edfm.csv plus https://urdarbrunnur.rhi.hi.is/bendingar-nidurhal/Storasnid_allt.zip
2023-02-08
Norske træning data for CSTlemma udvidet med Scarrie data. (https://www.nb.no/sbfil/leksikalske_databaser/leksikon/scarrie-lex-lmf.zip)
2023-01-29
Nye 'Sammensætning' værdier 'frekvensliste, kun ukendte ord' og 'alfabetisk liste, kun ukendte ord'. (Kan bruges til at finde ord som mangler i CSTlemmas træningdata.)
2023-01-26
Albanske træning data til CSTlemma består nu af https://github.com/NeldaKote/Albanian-POS og https://github.com/isahb/sq-morph-dict/blob/main/verbs_tagged.txt
2023-01-26
Engelske træning data til CSTlemma består nu af http://celex.mpi.nl/ og https://github.com/lamblabo/node-lemmatizer
2023-01-10
'Tørsvømning' for arbejdsgang. I stedet for at afvikle en arbejdsgang, produceres alle trin i form af pseudokode og 'bash' komandoer.
2022-11-03
Rettet og forbedret: trinvis specificering af mål.
2022-10-19
Rettet: under nogle omstændigheder blev nogle arbejdsgange beregnet, men ikke vist som kandidatarbejdsgange.
2022-10-19
Forbedret CST-NER og TEI annotering.
2022-10-19
Tilpasset Clarin base format: <s> elementer for sætninger, <w> elements for tokens. En <w> kan indeholde andere elememter, også <w>.
2022-10-19
conll2pt kræver Conll-U formatteret input.
2022-08-23
Anvendt https://github.com/michmech/lemmatization-lists.git som træningsmateriale til CSTlemma. Nye sprog: asturisk, katalansk, walisisk, irsk, skotsk gælisk, galicisk, mansk. Forbedret: svensk.
2022-08-23
Løst: nogle gange blev der vist for få kandidatarbejdsgange når man havde zoomet-in, fordi der uden grund var blevet tilføjet krav til målet.
2022-07-22
Forside: tilføjet Clarin-DK og Text Tonsorium logoer, med links. "Text Tonsorium" fjernet fra overskriften.
2022-07-20
Text Tonsorium forsøger at give en hjælpende forklaring hvis der ikke bliver fundet arbejdsgange.
2022-07-19
Vi antager at ortografien af visse sprog (tjekkisk, engelsk, moderne græsk, fransk, spansk og tysk) ikke har ændret sig væsentligt siden 1800-tallet, hvorfor vi ligestiller periodeværdierne 'moderne tid' og 'efterkrigstiden'.
2022-05-10
Nu kan Text Tonsorium læse fra URL'er med ikke-ASCII tegn.
2022-05-09
Nyt værktøj som kopierer ord, lemma og pos fra CONLL input til tre kolonner.
2022-04-22
Accepter input som har et træk med flere værdier, som fx conll-filer med adskillige indholdstyper (form, lemma, pos, o.s.v.).
2022-04-13
PDFMiner, Cuneiform og Tesseract 'frastøder' hinanden og optræder ikke i de samme workflows.
2022-04-12
'Evt. i kombination med andre værdier' bliver nu ignoreret hvis man ikke valger nogen værdi overhovedet. Dette løser et problem med 'zooming in' på målet.
2022-04-11
Tesseract: version 4 --> 5.1.0
2022-03-12
RTFreader: tokenisering uden også at segmentere. (Kræver input Annotationstype 'Sætningssegmenter', ikke 'Ingen annotation'.)
2022-03-11
CSTlemma: tilføjelse af en linje per sætning-format.
2022-03-08
Linjeafgrænsning som i Windows tekstfiler (CRLF) læses som *n?x linjeafgrænsning (LF) når ORG mode input analyseres for at detektere fx sproget.
2022-01-28
Begrænsning af 'lempos' til ikke-engelsk og ikke-nutidsdansk. Lempos anbefales ikke som alternativ til andre POS-taggere.
2022-01-26
De latinske tekster i 'Skrift og tekst i tid og rum'-projektet bliver nu også annoteret med morfologiske træk.
2022-01-14
Valglisterne på input/mål specifikationssiden bliver midlertidigt gemt i stedet for genberegnet.
2022-01-12
log4j 2.16.0 -> 2.17.1
2021-12-30b
Rettet fejl ifm. memoisering af arbejdsgange som er kendetegnet ved det sidste værktøj i stedet for den ønskede output.
2021-12-30a
Arbejdsgange som aktiverer samme værktøjet på flere måder som kun er forskellige på subspecifikationsniveauet bliver ignoreret. Fx en tokeniser som skal tokenisere 'simpel' og ifølge Penn Treebank regler.
2021-12-20
Den angrebsfølsomme log4j (Java logning) software er erstattet med forbedret version 2.16.0.
2021-12-03
Når man bestilte utvetydig output, ville CSTlemma alligevel tilbyde flere lemmaer hvis de var lige sandsynlige. Nu vælger CSTlemma at tilbyde det første i sådanne tilfælde.
2021-11-27
Begyndelse af changelog.