Text Tonsorium - Changelog
- 2024-07-22
- Bruger /texton/dialog til alle dialoger som fører til arbejdsgang. Fordel: HTTP parametre bliver husket i browseren.
- 2024-07-19
- Tilføjet middelnedertysk. Disambiguering ved hjælp af trigramfrekvenser.
- 2024-03-06
- Forbedret oversættelse fra UD-pipe-tags til CST tags (plus lidt mere info); kigger på morfologi og ordform.
- 2024-03-01
- Rettet fejl: token med ikke-alfabetiske tegn blev delt op i mindre bider.
- 2024-02-05
- 'Repetitiveness checker'- værktøjet kan nu tage flere inputfiler af samme type. I så fald viser det ordsekvenser der forekommer i flere filer.
- 2024-02-05
- Nu kan man registrere værktøjer der kan tage flere inputfiler af samme type, fx sammenligningsværktøjer.
- 2023-12-05
- Rettet fejl ved generering af 'xml:id' attributter i <exclude> elementer.
- 2023-12-04
- (1) Forbedret håndtering af input hvis navne ikke er havnet i kolonnen længst til venstre. Sådanne filer kunne ikke behandles hvis man redigerede inputbeskrivelsen. (2) Readme.txt filen er fjernet fra den zippede output. (3) TEI-filer med <w> (token) tags og ingen andre lingvistiske annotationer bliver behandlet som 'tekst', ikke som 'tokeniseret tekst'.
- 2023-11-24
- Visuelt forbedret SVG diagram af arbejdsgang, med animering. På samme side: mere læsbar beskrivelse af arbejdsgang.
- 2023-09-06
- Vis diagram af arbejdsgang som SVG vektorgrafik med mouseover effekter.
- 2023-02-19
- Tilføjet hviderussisk. Træningsmateriale hentet fra: https://github.com/Belarus/GrammarDB.
- 2023-02-08
- Træning data til CSTlemma for færøsk udvidet: https://github.com/hinrikur/far-ABLTagger/blob/master/inflection/edfm-v0.1/edfm.csv plus https://urdarbrunnur.rhi.hi.is/bendingar-nidurhal/Storasnid_allt.zip
- 2023-02-08
- Norske træning data for CSTlemma udvidet med Scarrie data. (https://www.nb.no/sbfil/leksikalske_databaser/leksikon/scarrie-lex-lmf.zip)
- 2023-01-29
- Nye 'Sammensætning' værdier 'frekvensliste, kun ukendte ord' og 'alfabetisk liste, kun ukendte ord'. (Kan bruges til at finde ord som mangler i CSTlemmas træningdata.)
- 2023-01-26
- Albanske træning data til CSTlemma består nu af https://github.com/NeldaKote/Albanian-POS og https://github.com/isahb/sq-morph-dict/blob/main/verbs_tagged.txt
- 2023-01-26
- Engelske træning data til CSTlemma består nu af http://celex.mpi.nl/ og https://github.com/lamblabo/node-lemmatizer
- 2023-01-10
- 'Tørsvømning' for arbejdsgang. I stedet for at afvikle en arbejdsgang, produceres alle trin i form af pseudokode og 'bash' komandoer.
- 2022-11-03
- Rettet og forbedret: trinvis specificering af mål.
- 2022-10-19
- Rettet: under nogle omstændigheder blev nogle arbejdsgange beregnet, men ikke vist som kandidatarbejdsgange.
- 2022-10-19
- Forbedret CST-NER og TEI annotering.
- 2022-10-19
- Tilpasset Clarin base format: <s> elementer for sætninger, <w> elements for tokens. En <w> kan indeholde andere elememter, også <w>.
- 2022-10-19
- conll2pt kræver Conll-U formatteret input.
- 2022-08-23
- Anvendt https://github.com/michmech/lemmatization-lists.git som træningsmateriale til CSTlemma. Nye sprog: asturisk, katalansk, walisisk, irsk, skotsk gælisk, galicisk, mansk. Forbedret: svensk.
- 2022-08-23
- Løst: nogle gange blev der vist for få kandidatarbejdsgange når man havde zoomet-in, fordi der uden grund var blevet tilføjet krav til målet.
- 2022-07-22
- Forside: tilføjet Clarin-DK og Text Tonsorium logoer, med links. "Text Tonsorium" fjernet fra overskriften.
- 2022-07-20
- Text Tonsorium forsøger at give en hjælpende forklaring hvis der ikke bliver fundet arbejdsgange.
- 2022-07-19
- Vi antager at ortografien af visse sprog (tjekkisk, engelsk, moderne græsk, fransk, spansk og tysk) ikke har ændret sig væsentligt siden 1800-tallet, hvorfor vi ligestiller periodeværdierne 'moderne tid' og 'efterkrigstiden'.
- 2022-05-10
- Nu kan Text Tonsorium læse fra URL'er med ikke-ASCII tegn.
- 2022-05-09
- Nyt værktøj som kopierer ord, lemma og pos fra CONLL input til tre kolonner.
- 2022-04-22
- Accepter input som har et træk med flere værdier, som fx conll-filer med adskillige indholdstyper (form, lemma, pos, o.s.v.).
- 2022-04-13
- PDFMiner, Cuneiform og Tesseract 'frastøder' hinanden og optræder ikke i de samme workflows.
- 2022-04-12
- 'Evt. i kombination med andre værdier' bliver nu ignoreret hvis man ikke valger nogen værdi overhovedet. Dette løser et problem med 'zooming in' på målet.
- 2022-04-11
- Tesseract: version 4 --> 5.1.0
- 2022-03-12
- RTFreader: tokenisering uden også at segmentere. (Kræver input Annotationstype 'Sætningssegmenter', ikke 'Ingen annotation'.)
- 2022-03-11
- CSTlemma: tilføjelse af en linje per sætning-format.
- 2022-03-08
- Linjeafgrænsning som i Windows tekstfiler (CRLF) læses som *n?x linjeafgrænsning (LF) når ORG mode input analyseres for at detektere fx sproget.
- 2022-01-28
- Begrænsning af 'lempos' til ikke-engelsk og ikke-nutidsdansk. Lempos anbefales ikke som alternativ til andre POS-taggere.
- 2022-01-26
- De latinske tekster i 'Skrift og tekst i tid og rum'-projektet bliver nu også annoteret med morfologiske træk.
- 2022-01-14
- Valglisterne på input/mål specifikationssiden bliver midlertidigt gemt i stedet for genberegnet.
- 2022-01-12
- log4j 2.16.0 -> 2.17.1
- 2021-12-30b
- Rettet fejl ifm. memoisering af arbejdsgange som er kendetegnet ved det sidste værktøj i stedet for den ønskede output.
- 2021-12-30a
- Arbejdsgange som aktiverer samme værktøjet på flere måder som kun er forskellige på subspecifikationsniveauet bliver ignoreret. Fx en tokeniser som skal tokenisere 'simpel' og ifølge Penn Treebank regler.
- 2021-12-20
- Den angrebsfølsomme log4j (Java logning) software er erstattet med forbedret version 2.16.0.
- 2021-12-03
- Når man bestilte utvetydig output, ville CSTlemma alligevel tilbyde flere lemmaer hvis de var lige sandsynlige. Nu vælger CSTlemma at tilbyde det første i sådanne tilfælde.
- 2021-11-27
- Begyndelse af changelog.