FEJL pr. 1/11
Træningskorpus: |
261904 ord |
Testkorpus: |
28698 ord |
Antal fejl: |
3,86 % |
Fejl blandt kendte ord: |
36 % |
Fejl blandt ukendte ord: |
64 % |
1. 28,1% - 279 ord med mønstret [A-Z,Æ,Ø,Å][a-z,æ,ø,å]+\/
dvs ord der begynder med stort
- det er dels ord efter punktum
(selvom ordformen stavet m. småt findes i leksikon)
- dels egennavne som Parole ikke definerer som navne
fx. "Mogenstrup/EGEN Grusgrav/N",
- dels ord efter steder hvor der "burde" være et punktum,
fx efter overskrifter, billedtekster osv.
- samt andre (uforklarlige) fejl
fx Mission/V_INF ist. Mission/N
Poul-Erik/V_INF ist. Poul-Erik/EGEN
2. 7,3% - 73 ord med mønstret [A-Z,Æ,Ø,Å]+\/
dvs. ord der består af flere store bogstaver
- generelt kan taggeren ikke transformere store til små bogstaver
3. 6,7 %- 67 af fejlene hvor tagget skulle være "XX"
dvs. der er tale om en fejl i korpus
4. 6,6%- 66 af ordene ender på -et
skyldes evt. problemer med N vs. V_PARTC_PAST
5. 6,4%- 64 ord der ender på s
dvs. problemer m genitiv eller evt.. problemer m V_PRES i korpus
6. 6,2%- 62 af ordene der ender på -er
skyldes evt.. problemer med N vs. V_PRES
7. 3,9%- 39 af ordene ender på -ede
skyldes evt. problemer med V_PAST vs. V_PARTC_PAST
8. 1,9%- 19 af ordene ender på -te
skyldes evt. problemer med V_PAST vs. V_PARTC_PAST