From: Laurent SCHMITT <Schmitt@inist.fr>
_______________________________________________________________________
N'HESITEZ PAS A REDIFFUSER CE MESSAGE
------------------------------------------------------------------------------
AMARYLLIS-2 : Evaluation des systemes d'acces en francais a l'information textuelle
***** Appel a participation *********
Amaryllis est une Action de Recherche Concertee (ARC A1) cofinancee par l'Aupelf-Uref et par le
Ministere de l'Education Nationale, de l'Enseignement Superieur et de la Recherche. Ce projet cherche a
"promouvoir l'elaboration de corpus et de procedures d'evaluation concernant le francais, pour
permettre a la recherche de progresser et au domaine de se doter d'instruments de mesure rendant
possible une comparaison objective des differentes approches". D'autre part il vise afavoriser le
developpement des systemes et permettre une meilleure visibilite de l'offre.
Le premier cycle de ce projet (1996-1997) a permis de constituer une premiere serie de corpus, d'etablir
des protocoles de tests (methodologie basee sur TREC) et d'effectuer une premiere campagne de tests.
Des informations sur le cycle exploratoire ainsi que cet appel a participation se trouvent a l'adresse
suivante : http://www.inist.fr/accueil/profran.htm
Le present appel a participation pour le second cycle du projet Amaryllis (1998-1999) s'adresse a des
equipes de recherche et a des industriels, disposant de systemes d'acces a l'information textuelle traitant
au moins le francais. Ce second cycle offrira egalement la possibilite (facultative) d'effectuer des tests
multilingues et interlangues.
De meme que pour le cycle exploratoire, aucun financement n'est prevu pour cette participation, mais le
benefice pour ces equipes de recherche et industriels sera multiple :
- disposer, dans le cadre du projet, d'un ensemble de corpus de documents, de questions d'utilisateurs et
de reponses "justes",
- beneficier d'une structure d'echange et de reflexion grace a la participation de concepteurs et
d'utilisateurs de systemes,
- beneficier de la visibilite induite par la participation au projet.
DEROULEMENT DU SECOND CYCLE
Pour repondre a certaines demandes des participants au cycle exploratoire, ouvrir des perspectives
europeennes a Amaryllis et utiliser les possibilites maintenant offertes par les reseaux, ce second cycle
comprendra,, plusieurs volets :
- premier volet, obligatoire, de tests d'acces en francais a l'information textuelle en langue francaise :
ces tests se derouleront selon la methodologie determinee pour le cycle exploratoire. Cependant, pour
repondre aux demandes des participants au premier cycle, le nombre de themes a ete double.
- second volet, option interlangue : ces tests permettront d'interroger un ensemble de documents dans
une langue europeenne donnee par l'intermediaire de themes de recherche d'une autre langue
europeenne.
- troisieme volet, option tests a travers le reseau.
Note : avant de pouvoir recevoir les corpus de documents textuels, chaque participant aux tests devra
signer une convention limitant l'utilisation de ces corpus au projet.
1 - Tests sur les documents en langue francaise
Comme pour le cycle exploratoire, il y aura deux phases :
- Premiere phase : entrainement des systemes des participants aux tests
Pour l'entrainement, chaque participant aux tests recevra des corpus d'entrainement sur un premier
cederom (cederom d'entrainement) comprenant :
- documents textuels en francais (D1). Il y aura plusieurs types de documents (titres et resumes
d'articles scientifiques, articles de journaux...). Ces corpus de documents sont disjoints.
- themes de recherche en francais associes aux documents textuels en francais (T1).
- reponses "justes" de chaque theme de recherche dans les documents textuels D1 (T1D1).
_ Les participants aux tests devront fournir leur formulation des requetes elaborees a partir de chaque
theme ainsi que leurs reponses de T1 sur D1 soit un fichier nomme T1D1.
- Seconde phase : tests d'evaluation
Les participants effectueront deux types de tests d'evaluation pour lesquels ils recevront un second
cederom (cederom de tests) contenant un lot de nouveaux documents textuels (D2) et de nouveaux
themes de recherche (T2) :
- tests simulant un routage : les formulations des themes de recherche, T1, elaborees lors de
l'entrainement sont appliquees sans modifications au lot de nouveaux documents textuels, D2,
- tests simulant une interrogation : les nouveaux themes de recherche recus, T2, sont appliques aux
documents textuels deja connus utilises a l'entrainement, D1.
==> Les participants aux tests fourniront les reponses de T1 sur D2 et de T2 sur D1 soit 2 fichiers
nommes : T1D2 et T2D1.
Les reponses cumulees des participants aux tests seront re-etudiees pour chaque theme de recherche ;
cette etude permettra de completer le lot de reponses "justes" des fournisseurs de corpus et constituer le
referentiel des reponses "justes", comme il a ete fait lors du cycle exploratoire.
Les resultats de chaque participant aux tests seront consideres comme experimentaux. Ils lui seront
communiques et seront diffuses au sein du groupe de participants mais ne seront en aucun cas diffuses a
l'exterieur (du moins sans l'accord du participant aux tests). Chaque participant aux tests devra cependant
fournir des donnees descriptives de son systeme et des informations sur la facon dont il aura opere. Une
grille de questions lui sera proposee pour cela.
- Modalites de test
Deux modes de construction des requetes sont proposes :
- automatique (le systeme cree automatiquement la requete a partir d'un ou de plusieurs elements des
themes de recherche sans aucune intervention manuelle),
- manuel (la requete est construite manuellement ou avec assistance du systeme).
2 - Option interlangues
Ces tests comprendront, comme les tests sur les documents en francais, une phase d'entrainement et une
phase d'evaluation ; cependant, les tests d'evaluation ne comprendront que les tests simulant une
interrogation, c'est a dire tests sur des corpus connus (utilises pour l'entrainement) avec de nouveaux
themes. Les modes de construction des requetes seront, comme pour les tests precedents, automatiques
ou manuels.
- Premiere phase : entrainement des systemes des participants a l'option
Pour l'entrainement, chaque participant aux tests recevra un corpus multilingue d'entrainement sur le
cederom d'entrainement comprenant :
- 5 lots paralleles de documents textuels : en francais (ED1fr) , italien (ED1it), espagnol (ED1sp),
anglais (ED1en) et allemand (ED1ge). Les memes textes sont presents dans chaque lot dans la
langue correspondante.
- 5 lots de themes de recherche identiques dans les memes langues : ET1fr, ET1it, ET1sp, ET1en, ET1ge.
- reponses "justes" de chaque theme de recherche dans les documents textuels ED1 (ET1frD1fr). Ce
referentiel sera etabli sur le couple de langue francais/francais mais sera valable pour tous les
autres couples de langues puisque les textes sont les memes dans chaque lot.
==> Les participants aux tests pourront choisir le ou les couples de langues document/theme.cment) comprenant :
- doc
- Seconde phase : tests d'evaluation
Les participants recevront 5 nouveaux lots de themes (ET2fr, ET2it, ET2sp, ET2en, ET2ge) sur le
cederom de tests. Ils devront effectuer des tests simulant une interrogation avec les nouveaux themes de
recherche ET2xx appliques aux documents textuels deja connus utilises a l'entrainement, ED1yy.
==> Les participants aux tests fourniront les reponses de ET2 dans ED1, en precisant le couple de
langues traite soit des fichiers nommes ET2xxD1yy (xx = fr, it, sp, en ge et yy = fr, it, sp, en ge).
Le referentiel sera revise en fonction des reponses cumulees des participants comme pour les tests sur les
documents en francais.
3- Option tests a travers le reseau
Pour les tests d'interrogation automatique, les participants, apres avoir recu les documents, devront creer
une base documentaire avec leur systeme et realiser un cgi encapsulant une API de recherche dans la
base. Les tests se feront alors au travers du reseau par un programme qui interrogera chaque URL en lui
envoyant pour chaque question, son numero et son libelle en langage libre. Le cgi devra donc
automatiquement traiter la question et renvoyer les reponses. Pour les participants a cette option, des
details sur les formats d'echanges et sur le mode operatoire seront fournis ulterieurement.
CALENDRIER PREVISIONNEL
01/11/98 Envoi du cederom contenant les corpus d'entrainement (documents, themes, reponses) aux
participants
31/01/99 Reception des resultats d'entrainement des participants : formulations des themes et
reponses
01/02/99 Envoi aux participants du cederom contenant les nouveaux corpus de documents pour tests
de simulation de routage et les seconds lots de themes pour tests de simulation
d'interrogation
28/02/99 Reception des resultats de tests des participants
15/05/99 Diffusion des resultats a chaque participant
/06/99 Presentation des travaux realises
De plus, l'Aupelf-Uref organisera au printemps 2000 une conference qui fera le bilan de ses ARCs.
---------------
Pour tout complement d'information, vous pouvez nous contacter a l'adresse electronique suivante :
amaryllis@inist.fr.
Pour signaler votre intention de participer, envoyez un message au plus tard le 15 septembre 1998 a
amaryllis@inist.fr contenant les informations suivantes :
Personne a contacter : ....................................
Nom de l'organisme : .....................................
Nom du systeme propose : ............................
_________________
INIST - Appel Amaryllis-2