BILAG 5

FEJL pr. 1/11

Træningskorpus:

261904 ord

Testkorpus:

28698 ord

Antal fejl:

3,86 %

Fejl blandt kendte ord:

36 %

Fejl blandt ukendte ord:

64 %

 

1. 28,1% - 279 ord med mønstret [A-Z,Æ,Ø,Å][a-z,æ,ø,å]+\/

dvs ord der begynder med stort

- det er dels ord efter punktum

(selvom ordformen stavet m. småt findes i leksikon)

- dels egennavne som Parole ikke definerer som navne

fx. "Mogenstrup/EGEN Grusgrav/N",

- dels ord efter steder hvor der "burde" være et punktum,

fx efter overskrifter, billedtekster osv.

- samt andre (uforklarlige) fejl

fx Mission/V_INF ist. Mission/N

Poul-Erik/V_INF ist. Poul-Erik/EGEN

2. 7,3% - 73 ord med mønstret [A-Z,Æ,Ø,Å]+\/

dvs. ord der består af flere store bogstaver

- generelt kan taggeren ikke transformere store til små bogstaver

3. 6,7 %- 67 af fejlene hvor tagget skulle være "XX"

dvs. der er tale om en fejl i korpus

4. 6,6%- 66 af ordene ender på -et

skyldes evt. problemer med N vs. V_PARTC_PAST

5. 6,4%- 64 ord der ender på s

dvs. problemer m genitiv eller evt.. problemer m V_PRES i korpus

6. 6,2%- 62 af ordene der ender på -er

skyldes evt.. problemer med N vs. V_PRES

7. 3,9%- 39 af ordene ender på -ede

skyldes evt. problemer med V_PAST vs. V_PARTC_PAST

8. 1,9%- 19 af ordene ender på -te

skyldes evt. problemer med V_PAST vs. V_PARTC_PAST