 
|
>
Recherche > Evaluation
Evaluation des systèmes
interactifs
Présentation
Au
cours des années 1990, l'évolution du TALN de
la linguistique computationelle vers
l'ingénierie des langues a été
tirée par la mise en place de grandes campagnes de test
internationales. L'évaluation des systèmes est
ainsi désormais au centre des préoccupations des
recherches en TALN. Cette évolution a permis une prise en
compte salutaire des usages réels et des applications
finales. On peut toutefois regretter qu'elle favorise souvent une
course aux résultats immédiats aux
dépends d'une réflexion plus profonde sur les
barrières technologiques et théoriques que
doivent surmonter nos systèmes. C'est pourquoi j'ai toujours
cherché à mener une réflexion sur les
méthodologies de test en parallèle à
mes activités de concepteur de système interactif
:
- Compréhension
de la parole et dialogue homme-machine -
Proposition de plusieurs
méthodologies (DCR, DEFI) d'évaluation associant
métrique quantitative objective et finesse d'analyse par
constitution de sous bases de test spécifiques à
des phénomènes langagiers précis. Ces
travaux ont inspiré le paradigme d'évaluation
retenu pour la campagne d'évaluation MEDIA/EVALDA

- Systèmes d'aide
à la communication pour personnes handicapées
- Les métriques usuellements utilisées dans le
domaine de la prédiction de mots (taux d'économie
de saisie ou KSR
: Keystroke Shift
Reduction) ne correspondent qu'à des situations
d'utilisation idéales. Dans le cadre de plusieurs
collaborations (ESAC_IMC
en particulier), j'ai participé à
l'analyse des usages réels de ces systèmes de
suppléance. Je suis par ailleurs membre du comité
de la thèse de Samuel
Pouplin ,
qui va conduire en
particulier une étude longitudinale les usages
réels de différents claviers virtuels.
- Anotation et
reconnaissance des émotions
- Le développement de l'informatique affective accroit
l'attention portée à la détection des
émotions et à l'annotation de corpus audio ou
vidéos en émotion. Les émotions
correspondent
à des états cognitifs complexes qui l'on observe
le plus
souvent de faible accord entre les annotateurs. Pour la même
raison, la fiabilité des corpus de
référence
utilisés dans les campagnes d'évaluation de la
reconnaissance des émotions sont fortement
dépendants de
cet accord inter-annotateur. En collaboration avec Jeanne Villaneau, je
mène ainsi des travaux expérimentaux sur la
pertinence
des différentes métriques utilisées
à la
fois pour estimer l'accord inte-annotateur et pour évaluer
les
systèmes sur cette thématique.
Par ailleurs,
notre équipe participe à différentes
campagnes d'évaluation compétitives.
C'est en particulier le cas dans le domaine de la reconnaissance des
entités nommées
où nous sommes partie prenante des campagnes
d'évaluation ESTER2

(2009)
et ETAPE 
(2012) portant sur l'analyse de flux de parole conversationnelle.
Travaux
et projets
Systèmes
de dialogue homme-machine
- Projet
ESAC_IMC
(Fondation
Motrice
, 2006-2007) - Etude du
comportement des
systèmes
d'aide à la communication lorsqu'il est utilisé
par des patients souffrants de
troubles langagiers associés.
- Projet VOLTAIRE
(AFM
,
2008-2009)
- Intégration du moteur de prédicteur de Sibylle
dans le clavier open source CVK
/ CiViKey -
Evaluation
par
la PFNT de
l'Hôpital de Garches (comparaison de différentes
dispositions de l'interface et de différents moteurs de
prédiction) dans le cadre du doctorat de Samuel
Pouplin .
Sélection
de publications
- Jean-Yves ANTOINE, Marc LE
TALLEC, Jeanne VILLANEAU (2011) Evaluation de
la
détection des émotions, des opinions ou des
sentiments :
dictatute de la majorité ou respect de la
diversité
d'opinions ? Actes
TALN'2011,
Montpellier, France, Juillet 2001 [HAL-00625727]

- Damien
NOUVEL, Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL (2010)
An analysis of the performances of the CasEN named entities detection
system in the Ester2 evaluation campaign.
Proc. 9th European
conference on Language Resources and Evaluation, LREC’2010,
Valetta, Malta, May 2010.
[HAL-00502370]
- Philippe BOISSIERE, Igor SCHADLE,
Jean-Yves ANTOINE (2006) A methodological framework for
writing assistance systems: applications to sibylle and VITIPI
systems. AMSE
Journal on Modelling, Mesurement & Control,
Série C., Barcelona, Spain. Vol 67, pp. 167-176
.
- Laurence
DEVILLERS, H. MAYNARD, P. PAROUBEK, S. ROSSET, J-Y. ANTOINE, F. BECHET,
C. BOUSQUET, O. BONTRON, L. CHARNAY, K. CHOUKRI, K. McTAIT, L. ROMARY,
M. VERGNES, N. VIGOUROUX (2004) The French
MEDIA/EVALDA project: the evaluation of the understanding capability of
Spoken Language Dialogue Systems. Proc. 4th European Conference on
Language Resources and Evaluation, LREC'2004, Lisbonne,
Portugal
.
- Jean-Yves
ANTOINE, Caroline BOUSQUET-VERNHETTES, Jerome GOULIAN, Mohamed Zakaria
KURDI,
Sophie ROSSET, Nadine VIGOUROUX, Jeanne VILLANEAU (2002)
Predictive and objective evaluation of speech understanding: the
“challenge” evaluation campaign of the I3 speech
workgroup of the French CNRS. Proc. 3rd International Conference on
Language Resources & Evaluation, LREC’2002,
Las Palmas de Gran Canaria, Espagne. pp.529-535

- Jean-Yves
ANTOINE, Jacques SIROUX, Jean CAELEN, Jeanne VILLANEAU, Jerome GOULIAN,
Mohamed AHAFHAF (2000) Obtaining predictive results
with an objective evaluation of spoken dialogue systems : experiments
with the DCR assessment paradigm, Proc. 2nd International Conference on
Language Resources & Evaluation, LREC’2000,
Athenes, Grèce
.
- Jean-Yves
ANTOINE, Jean CAELEN (1999) Pour une
évaluation objective, prédictive et
générique de la compréhension en CHM
orale : le paradigme DCR (Demande, Contrôle,
Résultat), Revue Langues,
2(2), pp. 130-139
.
Evaluation des systèmes
interactifs
|
Retour
en haut
de page |
Jean-Yves
ANTOINE - Dernière modification : 13 mars 2012
|
|
|