R.V.Fjeld: Om forholdet mellom tradisjonell leksikografi og lingvistikk
Innledning:
Jeg går i denne sammenhengen ut fra som gitt at leksikografi er språkvitenskap, noe som i det seinere har vært diskutert innen leksikografenes fagmiljøer. Det er klart at leksikografi er flere ting, f eks skiller Hartmann (1998) mellom leksikografi som praksis, dvs som det å lage ordbok, og leksikografi som teoretisk forskning:
Lexicography
as practice: as theory:
dictionary making dictionary research
recording editing publishing dt. use critisism typology history
(R.R.K. Hartmann and G. James. 1998)
Det siste ser han på som forskning i ordboksbruk, ordbokstypologi etc. Det er den delen som han setter under praktisk ordbokslaging, som jeg regner som den mest typiske språkvitenskapelige delen, det som noe tilslørende blir kalt "recording" og "editing". I vår tid er det vanskelig å hevde at leksikografiens mål kun er å finne en god og lettilgjengelig presentasjon av kjent kunnskap om språklige data, da betingelsene for slik presentasjon er betydelig endret med datateknologien. Jeg velger derfor å vinkle framstillinga her mot forholdet mellom leksikografi og datalingvistikk, da det er på dette feltet leksikografene stadig oftere møter andre lingvister.
Leksikografisk arbeid har like lange tradisjoner som språkvitenskapelig arbeid ellers, ja, faktisk er de eldste språkvitenskapelige arbeider vi har av leksikografisk art, men leksikografi blir likevel av mange sett på som ikke-vitenskapelig filologisk arbeid. Den som presenterer seg som leksikograf, blir av andre språkforskere ofte regnet som en slags uvitenskapelig språkpraktiker, en som sannsynligvis ikke har lest en eneste teoretisk framstilling om språk, og i hvert fall ikke har til hensikt å anvende noe av det. Faget har enten nærmest vært betraktet som et slags håndverk som hvem som helst kunne sette i gang med, bare en var tålmodig og nøyaktig nok. Mens av andre igjen, gjerne av ikke-språkvitere, er leksikografi betraktet som en kunstart man må ha spesielle nådegaver for å kunne utøve (Jf Landaus klassiker fra 1984: Dictionaries. The Art and Craft of Lexicography).
Både leksikografer og alle andre forskere (f eks grammatikere) har stort sett tre måter å finnne ut noe på: intuisjon, introspeksjon og materialstudier. Det er få forskere som er mer materialorientert enn moderne leksikografer. Så jeg forstår ikke helt kritikken mot leksikografene som uvitenskapelige synsere henholdsvis håndverkere. Det er ikke til å komme utenom at betydningsbeskrivelse er fortolkende vitenskap der det ikke fins noen ubestridelige fasitsvar. Men en ting er i hvert fall sikkert, det er helt nødvendig med en leksikalsk beskrivelse dersom man skal beskrive språksystemet eller språklig kompetanse, og et veldefinert leksikon er en helt nødvendig komponent i alle språkbearbeidingssystemer.
Teoriutviklingen:
Det er de siste 20-30 årene skjedd en intensiv teoriutvikling i leksikografien, ikke minst på grunn av teknologiske nyvinninger som gjør selve datainnhentingen og datapresentasjonen mindre krevende. Dermed kan databearbeiding og systematisering gjøres til de viktigste oppgavene.
Det er heldig for leksikografien som felt at ord eller rettere leksikalske enheter igjen er blitt på mote som forskningsobjekt i språkvitenskapen. Språkets leksikalske komponent ble i de rent strukturalistiske grammatikkmodellene ofte utelatt eller oppgitt som ustrukturert og derfor uten vitenskapelig interesse. Men i poststrukturalismens tid er den leksikalske komponenten igjen kommet i sentrum for grammatisk forskning, og mye av de mest spennende nyvinninger i lingvistikk i dag skjer i miljøer med tilknytning til leksikografi. For at vi som leksikografer skal komme så langt det er mulig i beskrivelsen av et språks leksikalske enheter, er det derfor svært nyttig, for ikke å si nødvendig, å samarbeide med andre språkvitenskapelige og informasjonsteknologiske fagmiljøer.
Leksikografi er imidlertid en selvstendig fagdisiplin som også trenger å utvikle sine egne teorier og metoder. Leksikografenes nitide tekstgransking og løpende vurdering av de leksikalske enheter som til enhver tid opptrer i et språk, samt systematisk dokumentasjon av dem, kan aldri helt erstattes med automatiske analyser eller generell regelbeskrivelse. Det er stor enighet i alle fagmiljøer om at å gi beskrivelser av hele leksikonet i et språk i hvert fall inntil videre krever menneskelige enkeltvurdering og fortolkninger på grunnlag av materialstudiene. Og det er nettopp det leksikografene gjør.
Fra ca 1985 har interessen for ordbøker vært stadig økende blant allmennlingvistene, men som bl a Ulrich Heid og Stuttgartmiljøet har pekt på, har det vært lite forskning på selve ordboksstruktureringa, dvs det som kan kalles systemarkitektur, noe som er av avgjørende betydning for om ordbøkene er brukbare i datalingvistiske systemer. Moderne leksikografer er opptatt av at det lages multifunksjonelle ordbøker der den leksikalske informasjonen kan benyttes til forskjellige formål.
Språkviternes holdning:
Bakgrunnen for de nevnte nedvurderende holdninger til disiplinen leksikografi bunner i en oppfatning om at det å lage en teoretisk beskrivelse av den leksikalske komponenten i et språks grammatikk og det å lage en beskrivelse av et språks leksikalske inventar, er to helt forskjellige og uavhengige oppgaver. Dette synet har preget både grammatikernes teoretiske beskrivelse av leksikon og leksikografenes egen praksis. Grammatikerne har ofte laget eksempler som skal illustrere og understøtte de reglene de har formulert, ut fra egen kompetanse og intuisjon (og har som kjent konstruert mye rart språk med det), ofte ut fra et vel sterkt ønske om at den grammatiske beskrivelsen skulle gå opp. På den andre siden har mange leksikografer arbeidet i faglig isolat der et lite og ikke alltid systematisk innsamlet materiale har fått styre beskrivelsen av hele språkets leksikon. Begge deler er uheldig. En god leksikografisk behandling av et språklig materiale kan gi grammatikerne bedre grunnlag for å finne fram til språkets regler og mønstre. Grammatikerne på sin side har et oversyn over språkets helhet og regelbundethet som bør gi leksikografene hjelp til å lage mer konsistente beskrivelser ut fra de innsamlede belegg og språklige data de har tilgjengelig.
Leksikografiens mål:
Hva som har vært hensikten med leksikografi, har forandret seg gjennom tidene. De aller første leksikografiske arbeidene var tospråklige ordlister som skulle hjelpe folk til å forstå fremmede språk eller ord i morsmålet som de ikke kunne fra før. Målet var altså å gi folk et praktisk kommunikasjonsredskap. Seinere kom andre mål til. Med utviklingen av enspråksleksikografien var det dokumentasjon av språk og ordforråd som et ledd i ideologisk eller politisk arbeid som var viktig, ofte kombinert med kodifisering og normering. Men i helt moderne tid har andre formål også kommet til:
Mye av den moderne språkforskningen kommer inn under feltet språkteknologi, der målet er å kunne behandle og produsere det menneskelige språket ved hjelp av datamaskiner. Helge Dyvik formulerte i en avisartikkel for noen år siden målet i språkteknologisk arbeid slik: "Det vi kan beskrive presist nok, kan vi også få en maskin til å etterligne" (Bergens Tidende 30.1.99). Men datalingvistiske systemer som kunnskapsbaser for automatisk tekstgenerering og automatisk oversettelse krever mye kunnskap om leksikon. Det er gjerne på grunn av mangler ved den leksikalske komponenten systemene strander, nettopp fordi leksikon som kjent er en så usystematisk eller ugjennomtrengelig del av språksystemet. Dermed settes mye forskning inn nettopp på å beskrive leksikon mest mulig strukturert og systematisk.
Den danske leksikografen og språkteknologen Anna Braasch ved Center for Sprogteknologi i København sa i et konferanseinnlegg allerede i 1993 om maskinoversettelse og ordbøker at resultatene fra maskinoversettelser synliggjør feil og mangler i ordbøker. Dersom man ved planleggingen av ordbøker tar hensyn til de automatiske systemenes behov og også de feil analysene der avdekker, kan vi både få bedre ordbøker for vanlige menneskelige behov og bedre ordbøker for de automatiske systemene.
Det er særlig de flertydige leksikalske enhetene som er problematiske i oversettingssystemene, dvs. polysemien. De viser at maskinleselige ordbøker må ha en beskrivelse som er eksplisitt, entydig, uttømmende og formalisert.
Den raske språkutviklinga krever at ordbokskomponenten i språkteknologiske produkter stadig blir oppdatert. Hvis språkteknologene skal kunne dra nytte av den kunnskapen som er samlet i humanordbøkene, må humanordbøkene være mest mulig systematiske og eksplisitte og helst redigert etter en standardisert form som passer for de automatiske systemene.
Metodekritikk/Mangler ved tradisjonell leksikografi:
Den tradisjonelle leksikografiske definisjonsmetoden er å beskrive en leksikalsk enhets plass i et begrepssystem ved hjelp av å angi det nærmeste overbegrepet (genus proximum) samt tilstrekkelige kjennetegn (differentia specifica) til å skille det ut fra de øvrige enhetene som genus proximum omfatter. En slik definisjonspraksis er uttrykk for et bestemt verdensbilde der all viten kan innordnes i et hierarkisk, taksonomisk system:
kaftan - lang, orientalsk mannskappe med vide ermer
Slike definisjoner passer best for konkrete substantiver, selv om det også er mulig å beskrive en god del verb og noen adjektiv etter et slikt mønster. Verre er det selvsagt med mange av adverbene og med funksjonsordene. Som regel defineres de ikke i det hele tatt, men får et synonym i stedet:
kanskje - kan hende = parafrase
Svært ofte er slike synonymdefinisjoner også sirkeldefinisjoner:
behagelig = bekvem = behagelig
nesten = omtrent = nesten
Et "komputasjonelt leksikon" må være en leksikalsk kunnskapsbase som i tillegg til systematiske og strukturelle egenskaper gir informasjoner om lemmaenes betydningselementer, og også om bruksrestriksjoner og tolkningsmessig kontekstavhengighet. Slike informasjoner gis bare sporadisk i humanordbøker. F eks har adjektivene overlagt, forsettlig, uaktsom alle i tillegg til den allmennspråklige en spesiell juridisk betydning innen et graderingssystem for forbrytelsers grovhetsgrad basert på om forbrytelsen var planlagt og om den var med vilje. En tradisjonell komponentanalyse viser systemet tydelig:
overlagt forsettlig uaktsom
plan + ÷ ÷
vilje + + ÷
Men f eks fra Bokmålsordboka kan man trekke ut følgende betydningsbeskrivelse:
overlagt forsettlig uaktsom
planlagt ikke planlagt skjødesløs
tilsiktet, med vilje, uforsiktig,
Ordboksdefinisjonen stemmer altså med den juridiske for overlagt og forsettlig, men det koster mer å finne det ut gjennom ordboksdefinisjonene og parafrasene, og det er tungvint, da man ofte må slå opp mange steder. Det er dessuten bare forsettlig som har den diatekniske markeringen jur i Bokmålsordboka, men både overlagt og uaktsom er like mye juridiske termer med en avgrenset, relasjonell.
Det er visse krav til ordbøker som skal kunne utnyttes i maskinoversettingssystemer:
Semantisk analyse av nøkkelord mht valensmønstre og kollokasjoner
Leksikalsk analyse av sammensetninger, synonymbruk, antonymer m m
Morfologisk analyse (bøyningsformer, kongruens, stavevarianter)
Hierarkisk ordning av begrepene og registrering av innbyrdes relasjoner
Det er altså mye av dette vi kan hente i tradisjonelle ordbøker, men kravene viser også at det fins store forbedringsmuligheter for tradisjonell ordboksredigering.
Datainnhenting:
For å holde seg innenfor et etterhvert forslitt bilde på forskjellige typer språkforskere, skiller man også mellom to typer leksikografi:
Lenestolsleksikografi: leksikografen definerer ut fra sin egen intuisjon
Korpusleksikografi: leksikografen definerer ut fra belegg i et korpus
Å ta utgangspunkt i tekstkorpus er en måte å hente inn leksikalsk kunnskap på. Dette har dere jo nå lære veldig mye om.
En tagger tilordner leksikalske enheter i syntaktiske kategorier automatisk, f eks å føye på ordklasser til enhetene i en ordliste eller i en løpende tekst. Et tagget korpus er mer verdifullt enn et utagget. Det er bare et spørsmål om perspektiv om en språkmodell brukes til å analysere med eller til å produsere tekst med.
Ordforrådet i et levende språk er dynamisk og dermed vanskelig å fange inn. Derfor har mange vært tilbakeholdne med empiriske undersøkelser av leksikon. Men bedre tilgjengelighet pga elektroniske tekstlesere og bedre prossesseringsevne gjør at man kan komme tilbake til empirien igjen!! Godt poeng - i 60- og 70-åra var jo netttopp tilgjengelighet og prosesseringsevne problemet, og grammatikerne dikta derfor heller eksemplene sine. Men korpusstudier er ikke til å komme utenom i moderne leksikografi. John Sinclairs Cobuild-ordbok er en av de første humanordbøker som er laget etter korpusmetoden, og den skiller seg fra de mer tradisjonelle nettopp ved å være mer eksplisitt og systematisk.
Som dere har lært, kan man ut fra et korpus bl.a. studere:
orddistribusjonsmønstre (ved hjelp av frekvensundersøkelser bl.a.)
konkordansedrevne definisjoner av kontekst og hvordan ord oppfører seg i kontekst
utdrag og representasjon av ordkollokasjoner
tilegnelse av leksikalsk verbsemantikk ut fra setningsrammer
derivasjon av leksikon for maskinoversettelse
Den kunnskapen som er tilgjengelig i tradisjonelle ordbøker, kan som regel ikke tilfredsstille disse kravene. Hovedproblemene er for det første at de ofte ikke har noe fast system for hvor leksikalsk informasjon på forskjellige nivåer skal presenteres. Det betyr at de ikke er konsistent nok organisert, dvs informasjonene i definisjonene kommer ikke på faste plasser eller i bestemte felt og kan derfor vanskeligere gjenfinnes. For det andre er det mangler ved dekningsgrad og for det tredje mangler ved den semantiske beskrivelse av lemmaene, f eks at mye av informasjonen er implisitt (slik som diateknisk markør ved overlagt og uaktsom i eksempelet ovenfor. Derfor bygges det ofte opp egne maskinelle leksikon. Slike leksikon er dessverre alle kjennetegnet ved å være svært små - det er nemlig en nesten umenneskelig, for ikke å si "umaskinelig" jobb å gi en systematisert beskrivelse av store mengder leksikalske enheter. Men automatiske språkbehandlingssystemer som har et svært lite leksikon, er ikke særlig nyttige, det blir så begrenset hva slags tekster de kan behandle. Mange maskinoversettere og andre språkteknologiske systemutviklere prøver derfor heller å bygge på de humanordbøkene som faktisk fins. Problemet da er hvordan datamaskinelle systemer skal kunne tilegne seg humanordbøkenes kunnskap om leksikon. Men her på kurset har vi faktisk lært en del smarte måter å komme videre og å rasjonalisere dette arbeidet på
I den prosessen har leksikografene også mye å hente: Automatiske analyser viser tydelig hvor ordbøkene er inkonsekvente eller usystematiske, og det blir dermed lettere å avdekke og reparere mangler ved dem. Dersom man tar hensyn til de erfaringer man har fra maskinell oversettelse og automatisk tekstprosessering ved planlegging av ordbøker, f eks ved lemmaseleksjon, valg av informasjonstyper og presentasjonsmåte, vil det være til fordel både for leksikografer og datalingvister.
Gjenbruk av ordbøker i datasystemer:
Humanordbøker inneholder store mengder av leksikalsk informasjon, men de har altså mange mangler i systematiseringen av den leksikalske kunnskapen som maskinelle systemer trenger. Likevel er de bedre kilder for dem som lager maskinsystemer enn spesialkonstruerte, eksemplariske leksikon laget ut fra minimale korpusstudier. Det er interessant for leksikografer at også datalingvister konkluderer med at man ikke kommer utenom menneskelig vurdering hvis man skal klare å systematisere det vi vet om leksikon, og datalingvistene har i det siste blitt mye flinkere til å utnytte den kunnskapen som fins i ordbøkene, blant annet fordi det er lettere å undersøke maskinleselige humanordbøker m h t konsekvens, konsistens og eksplisitthet enn de tradisjonelle papirordbøkene. I dag blir f eks mye av den implisitte informasjonen gjort eksplisitt med standardisert koding, om ikke alltid i den ferdige ordbokspresentasjonen, så ligger informasjonen tilgjengelig i redigeringsbasen.
Bogurarev og Pustejovsky (1996) skiller mellom "manual acquisition", som er å lage et spesialtilpassa leksikon for et system og "machine readable dictionaries", som er å trekke ut den kunnskapen det komputasjonelle leksikonet trenger fra en humanordbok som er gjort maskinleselig. Begge metodene har sine mangler og fortrinn. Et komputasjonelt leksikon avleda av en maskinleselig humanordbok vil være ufullstendig både med hensyn til dekning (dvs lemmautvalg) og innhold, dvs definisjon eller beskrivelse av leksikalske egenskaper. (= ytre og indre lemmaseleksjon)
Ellers er hovedproblemet konsistens og dataorganisering, hvordan leksikografene kan bøte på det.
De datalingvistiske språkbehandlingssystemene baserer seg på stokastiske modeller av språk (statistisk fundert gjetting). For å kunne foreta slik gjetting må systemene ha et kunnskapslager å gjette ut fra. Særlig viktig blir da den leksikalske komponenten. Det er generell enighet om at leksikalsk kunnskap (både morfologisk, syntaktisk og semantisk) for systemer som skal behandle alminnelige tekster, ikke bare noen få spesialkonstruerte prøvetekster, fortsatt best kan vinnes ved menneskelig analyse og vurdering, og dermed blir humanordbøkene den viktigste kilden for språkteknologiske ordbøker. (Det forhindrer ikke at man kan bruke dataanalyser i det leksikografiske arbeidet, såkalt datastøtta leksikografi, snarere tvert imot blir det mer og mer vanlig.) Boguraev og Pustejovsky nevner noen strategier for hvordan man kan utnytte maskinlesbare vanlige ordbøker i bygging av komputasjonelle leksikon:
kritisk vurdering av ordbokas datatyper og presentasjonen av dem
analyse av de leksikalske krav automatisk språkbehandling (NLP) stiller, særlig ettersom slike språkbehandlingsproblemer utvikles som generelle og domeneuavhengige
utforsking av skjæringspunktet mellom tilgjengelige og ønskede data, f eks i form av en generisk leksikalsk mal
lingvistisk motivert legitimering av å bruke en slik mal både mht hvilke data som skal hentes ut fra ordboka og for hvordan NLP skal foregå
forslag til hvordan de leksikalske malene skal anvendes: basert på leksikografiske lån og korpusstudier og spesielle datalingvistiske redskaper for ordboksanalyse.
Utfordringene til leksikografene
i dagens språkvitenskapelige bilde er tydelige: Dersom leksikografiske produkter skal være interessante for (data)lingvistene, må de arbeide ikke bare for å lage ordbøker for mennesker, som mest lurer på det som bryter med intuisjoner og med det som er sterkt automatisert pga høy frekvens i naturlig språkbruk. Maskinene har jo ingen språklig intuisjon eller erfaring å bygge på, og dermed må også leksikonbeskrivelsen være helt utførlig og fra bunnen av. Humanordbøkene vil neppe bli dårligere hjelpemidler av den grunn, særlig ikke de tospråklige produksjonsordbøkene.
Som lekiskograf bør man i dag stille seg følgende spørsmål:
Hvordan kan ordbøkene gjøres bedre, dvs at de leksikografiske informasjonene blir mer systematiske, fullstendige og eksplisitte slik at de opplysningene om leksikon de inneholder, både kan fungere som hjelpemidler for mennesker og kan være utnyttbare i lingvistiske kunnskapsbaser, baser som bl a skal brukes for automatisk språkgenerering og automatisk oversettelse.
Implisittt og eksplisitt informasjon:
Det vil alltid være mer informasjon i en ordbok enn det som syns på overflata, men det krevs som regel en formell lingvistisk teori for å avdekke den. Det blir dermed en utfordring for leksikografene å gjøre det implisitte mer eksplisitt v hj a egnede redskaper, da slipper man på et seinere stadium å "hånd-kode" store maskinanalyserte leksikalske databaser, slik man gjør i dag (f eks Lenat & Guas CYC-, som skal fange opp all menneskelig grunnbetydning i en kjempestor, manuelt samla database, og NorKompLeks). Men hvis informasjon om morfologiske, syntaktiske og semantiske egenskaper skal legges inn på en systematisk kodet måte slik at den kan hentes automatisk ut av ordbøkene, kan ikke moderne leksikografi klare seg uten generell lingvistisk teori og metode.
Et eksempel på eksplisittering av implisitt informasjon er behandlingen av verbene i Bokmålsordboka i NorKompLeks. Verbenes argumentstruktur er der systematisert, bl a på grunnlag av de eksempelsetningene som illustrerer bruken av verbene i ordboksdefinisjonene. Slike arbeider viser at både eksplisitte og implisitte data kan hentes mer eller mindre automatisk ut av ordbøkene og legges inn i en leksikalsk database, men det er klart at den eksplisitte er lettest å nyttiggjøre seg.
Automatisk prosessering av naturlig språk er influert av forskning om kunstig intelligens og den probabilistisk-baserte tilnærminga har behov for forskjellige leksikonmodeller. Det er mye diskutert innenfor disse miljøene om det er fornuftig å bruke ordbøker som grunnlag for leksikalsk informasjon, når leksikografene selv hevder at de tradisjonelle ordbøkene er utilstrekkelige. Vårt svar på det må være å gjøre humanordbøkene så gode som mulig, slik at vi kan være interessante samarbeidspartnere. Det ville være ufornuftig om leksikografene ikke både skulle være kunnskapsleverandører til dem som arbeider med automatiserte språkmodeller, på samme måte som det ville være synd om vi ikke skulle få tilgang til den innsikt de får i ordforrådet og melding om de mangler de finner ved humanordbøkene. Noen (Wilks et al 1992) har sagt at man kan se på ordbøker som høyrepresentative teksteksempler.
Den tradisjonelle måten innen datalingvistikk er å forsøke å etterlikne de kognitive mekanismene ved hjelp av symbolmanipulasjon, mens en nyere måte er å gå ut fra tekstkorpus og trekke slutninger ut fra sannsynlighetsberegninger av ordkollokasjoner. Disse to tilnærmingene er komplementære. Vi trenger regelbaserte systemer kombinert med store korpora for analyser for å kunne bygge mer effektive språkprosessorer. Flere kompletterer nå den tradisjonelle kunnskapen med korpusdata, og det er vel nettopp det vi leksikografene også må gjøre nå. Leksikografenes arbeid som er samlet i humanordbøkene er en akkumulering av ordkunnskap over mange hundre år, og det tar lang tid å samle så mye på andre måter. Men denne informasjonen er samlet med spesielle formål for øye, og det må en ta hensyn til ved utnyttelsen av den. På den andre siden må leksikografene være seg bevisst at det er nye og kanskje annerledes krav som stilles til leksikografene i dag, fordi ordbøkene brukes på en annen måte.
Vaghet og variabilitet
Et uløselig problem også i moderne leksikografisk/datalingvistisk beskrivelse er ordenes vaghet og ubestandighet. Det er lite omtalt i leksikografi/språkteknologi ut over det som går inn under polysemi. Men det er noe annet. En "systematisk og konsistent beskrivelse" forutsetter jo at man kan finne uttømmende og invariante betydningselementer, med eller uten kontekstinnflytelsen. Vi som arbeider med leksikografi vet i hvert fall at det ikke er mulig, levende språk er ikke slik, men det forhindrer ikke at man skal systematisere beskrivelsen så langt råd er. Jeg ser på leksikografi ikke som kunsten å presentere løse ordelementer med fast betydning og frigjort fra språksystem eller bruksrestriksjoner, men å presentere leksikon i den formen (dvs morfologien) og med den betydningen (dvs semantikken) og de forbindelsesmulighetene (dvs syntaksen) de leksikalske elementene har i de mest konvensjonaliserte og frekvente sammenhengene. Det vil neppe skade ordbøkene og vil gjøre dem bedre både for maskinbrukere og for vanlige mennesker som slår opp i dem for å bedre sin menneskelige kommunikasjonsevne. [Vi må ta vare på barnet, men det er bra å skifte badevann en gang imellom også!]
Aktuelle leksikografiske prosjekter:
Leksikonkomponenten i dataprogrammer:
Ulrich Heid - gjenbruk av tradisjonelle leksikon i datamaskinelle systemer
PAROLE - EU-prosjekt, korpus pluss et leksikon merka med morfologi og syntaks
NorKompLex - verbs argumentstruktur - Trondheim og Oslo
Korpusteori:
Generelle ordforrådsstudier m/ begrepsanalyser og ekvivalensproblematikk
"Terminologisk leksikografi
Igor Mel'cuck - leksikalsk database over grunnordforråd i fransk
Cobuild-ordbøkene
Paralellkorpusstudier:
EuroWordNet - EU-prosjekt, database over ordrelasjoner ved 50 000 verb og substantiv i fire EU-språk. Satser på gjenbruk av eksisterende ordbøker,
ikke definisjoner eller morfosyntaktiske informasjoner ut over ordklasser.
leksikonkomponenten i Helge Dyviks oversettingsmodeller - Bergen
Kontekststudier:
fraseologiske ordbøker
Ordbokshistorie og -kritikk
Brukerforskning
Normeringsteori
Ordboksredigering
definisjonsteori
Litteratur
Boguraev, Branimir and James Pustejovsky: Corpus Processing for Lexical Acquisition. London 1996
Braasch, Anna: Når maskinen tager én på ordet - ordbogsarbejde for maskinoversættelse. I: Pia Jarvad & Anna Garde (red): Nordiske studier i leksikografi II. Rapport fra Konference om leksikografi i Norden 11-14 maj 1993. København 1994
Braasch, Anna: Arbejdet med "Forslag om dansk standard for lagring og udveksling af leksikalske data". I: Ásta Svavarsdóttir, Gu?rún Kvaran og Jón Hilmar Jónsson (red): Nordiske studier i leksikografi III. Rapport fra konferanse om leksikografi i Norden, Reykjavik 7-10 juni 1995.
Ruth Vatvedt Fjeld og Boye Wangensteen: Leksikografiens rolle i det moderne kommunikasjonssamfunnet. I: Norskrift. Arbeidsskrift for nordisk språk og litteratur nr 97/1998
Hartmann, R.R.K. and G. James: Dictionary of lexicography. New York 1998
Heid, Ulrich. 1997. Zur Strukturierung von einsprachigen und kontrastiven elektronischen Wörterbüchern. Lexicographica. Series Maior 77. Tübingen
Kardela, Henryk & Gunnar Persson (eds): New Trends in Semantics and Lexicography. Proceedings of the international Conference at Kazimierz, December 13-15, 1993. Umeå 1995
Landau, Sidney I: Dictionaries. The Art and Craft of Lexicography. New York 1984