Text Tonsorium - Changelog

2024-07-22: Bruger /texton/dialog til alle dialoger som fører til arbejdsgang. Fordel: HTTP parametre bliver husket i browseren.
2024-07-19: Tilføjet middelnedertysk. Disambiguering ved hjælp af trigramfrekvenser.
2024-03-06: Forbedret oversættelse fra UD-pipe-tags til CST tags (plus lidt mere info); kigger på morfologi og ordform.
2024-03-01: Rettet fejl: token med ikke-alfabetiske tegn blev delt op i mindre bider.
2024-02-05: 'Repetitiveness checker'- værktøjet kan nu tage flere inputfiler af samme type. I så fald viser det ordsekvenser der forekommer i flere filer.
2024-02-05: Nu kan man registrere værktøjer der kan tage flere inputfiler af samme type, fx sammenligningsværktøjer.
2023-12-05: Rettet fejl ved generering af 'xml:id' attributter i <exclude> elementer.
2023-12-04: (1) Forbedret håndtering af input hvis navne ikke er havnet i kolonnen længst til venstre. Sådanne filer kunne ikke behandles hvis man redigerede inputbeskrivelsen. (2) Readme.txt filen er fjernet fra den zippede output. (3) TEI-filer med <w> (token) tags og ingen andre lingvistiske annotationer bliver behandlet som 'tekst', ikke som 'tokeniseret tekst'.
2023-11-24: Visuelt forbedret SVG diagram af arbejdsgang, med animering. På samme side: mere læsbar beskrivelse af arbejdsgang.
2023-09-06: Vis diagram af arbejdsgang som SVG vektorgrafik med mouseover effekter.
2023-02-19: Tilføjet hviderussisk. Træningsmateriale hentet fra: https://github.com/Belarus/GrammarDB.
2023-02-08: Træning data til CSTlemma for færøsk udvidet: https://github.com/hinrikur/far-ABLTagger/blob/master/inflection/edfm-v0.1/edfm.csv plus https://urdarbrunnur.rhi.hi.is/bendingar-nidurhal/Storasnid_allt.zip
2023-02-08: Norske træning data for CSTlemma udvidet med Scarrie data. (https://www.nb.no/sbfil/leksikalske_databaser/leksikon/scarrie-lex-lmf.zip)
2023-01-29: Nye 'Sammensætning' værdier 'frekvensliste, kun ukendte ord' og 'alfabetisk liste, kun ukendte ord'. (Kan bruges til at finde ord som mangler i CSTlemmas træningdata.)
2023-01-26: Albanske træning data til CSTlemma består nu af https://github.com/NeldaKote/Albanian-POS og https://github.com/isahb/sq-morph-dict/blob/main/verbs_tagged.txt
2023-01-26: Engelske træning data til CSTlemma består nu af http://celex.mpi.nl/ og https://github.com/lamblabo/node-lemmatizer
2023-01-10: 'Tørsvømning' for arbejdsgang. I stedet for at afvikle en arbejdsgang, produceres alle trin i form af pseudokode og 'bash' komandoer.
2022-11-03: Rettet og forbedret: trinvis specificering af mål.
2022-10-19: Rettet: under nogle omstændigheder blev nogle arbejdsgange beregnet, men ikke vist som kandidatarbejdsgange.
2022-10-19: Forbedret CST-NER og TEI annotering.
2022-10-19: Tilpasset Clarin base format: <s> elementer for sætninger, <w> elements for tokens. En <w> kan indeholde andere elememter, også <w>.
2022-10-19: conll2pt kræver Conll-U formatteret input.
2022-08-23: Anvendt https://github.com/michmech/lemmatization-lists.git som træningsmateriale til CSTlemma. Nye sprog: asturisk, katalansk, walisisk, irsk, skotsk gælisk, galicisk, mansk. Forbedret: svensk.
2022-08-23: Løst: nogle gange blev der vist for få kandidatarbejdsgange når man havde zoomet-in, fordi der uden grund var blevet tilføjet krav til målet.
2022-07-22: Forside: tilføjet Clarin-DK og Text Tonsorium logoer, med links. "Text Tonsorium" fjernet fra overskriften.
2022-07-20: Text Tonsorium forsøger at give en hjælpende forklaring hvis der ikke bliver fundet arbejdsgange.
2022-07-19: Vi antager at ortografien af visse sprog (tjekkisk, engelsk, moderne græsk, fransk, spansk og tysk) ikke har ændret sig væsentligt siden 1800-tallet, hvorfor vi ligestiller periodeværdierne 'moderne tid' og 'efterkrigstiden'.
2022-05-10: Nu kan Text Tonsorium læse fra URL'er med ikke-ASCII tegn.
2022-05-09: Nyt værktøj som kopierer ord, lemma og pos fra CONLL input til tre kolonner.
2022-04-22: Accepter input som har et træk med flere værdier, som fx conll-filer med adskillige indholdstyper (form, lemma, pos, o.s.v.).
2022-04-13: PDFMiner, Cuneiform og Tesseract 'frastøder' hinanden og optræder ikke i de samme workflows.
2022-04-12: 'Evt. i kombination med andre værdier' bliver nu ignoreret hvis man ikke valger nogen værdi overhovedet. Dette løser et problem med 'zooming in' på målet.
2022-04-11: Tesseract: version 4 --> 5.1.0
2022-03-12: RTFreader: tokenisering uden også at segmentere. (Kræver input Annotationstype 'Sætningssegmenter', ikke 'Ingen annotation'.)
2022-03-11: CSTlemma: tilføjelse af en linje per sætning-format.
2022-03-08: Linjeafgrænsning som i Windows tekstfiler (CRLF) læses som *n?x linjeafgrænsning (LF) når ORG mode input analyseres for at detektere fx sproget.
2022-01-28: Begrænsning af 'lempos' til ikke-engelsk og ikke-nutidsdansk. Lempos anbefales ikke som alternativ til andre POS-taggere.
2022-01-26: De latinske tekster i 'Skrift og tekst i tid og rum'-projektet bliver nu også annoteret med morfologiske træk.
2022-01-14: Valglisterne på input/mål specifikationssiden bliver midlertidigt gemt i stedet for genberegnet.
2022-01-12: log4j 2.16.0 -> 2.17.1
2021-12-30b: Rettet fejl ifm. memoisering af arbejdsgange som er kendetegnet ved det sidste værktøj i stedet for den ønskede output.
2021-12-30a: Arbejdsgange som aktiverer samme værktøjet på flere måder som kun er forskellige på subspecifikationsniveauet bliver ignoreret. Fx en tokeniser som skal tokenisere 'simpel' og ifølge Penn Treebank regler.
2021-12-20: Den angrebsfølsomme log4j (Java logning) software er erstattet med forbedret version 2.16.0.
2021-12-03: Når man bestilte utvetydig output, ville CSTlemma alligevel tilbyde flere lemmaer hvis de var lige sandsynlige. Nu vælger CSTlemma at tilbyde det første i sådanne tilfælde.
2021-11-27: Begyndelse af changelog.