Recherche (Evaluation) : Jean-Yves Antoine

Présentation

Au cours des années 1990, l'évolution du TALN de la linguistique computationelle vers l'ingénierie des langues a été tirée par la mise en place de grandes campagnes de test internationales. L'évaluation des systèmes est ainsi désormais au centre des préoccupations des recherches en TALN. Cette évolution a permis une prise en compte salutaire des usages réels et des applications finales. On peut toutefois regretter qu'elle favorise souvent une course aux résultats immédiats aux dépends d'une réflexion plus profonde sur les barrières technologiques et théoriques que doivent surmonter nos systèmes. C'est pourquoi j'ai toujours cherché à mener une réflexion sur les méthodologies de test en parallèle à mes activités de concepteur de système interactif :

Compréhension de la parole et dialogue homme-machine - Proposition de plusieurs méthodologies (DCR, DEFI) d'évaluation associant métrique quantitative objective et finesse d'analyse par constitution de sous bases de test spécifiques à des phénomènes langagiers précis. Ces travaux ont inspiré le paradigme d'évaluation retenu pour la campagne d'évaluation MEDIA/EVALDA
Systèmes d'aide à la communication pour personnes handicapées - Les métriques usuellements utilisées dans le domaine de la prédiction de mots (taux d'économie de saisie ou KSR : Keystroke Shift Reduction) ne correspondent qu'à des situations d'utilisation idéales. Dans le cadre de plusieurs collaborations (ESAC_IMC en particulier), j'ai participé à l'analyse des usages réels de ces systèmes de suppléance. Je suis par ailleurs membre du comité de la thèse de Samuel Pouplin , qui va conduire en particulier une étude longitudinale les usages réels de différents claviers virtuels.
Anotation et reconnaissance des émotions - Le développement de l'informatique affective accroit l'attention portée à la détection des émotions et à l'annotation de corpus audio ou vidéos en émotion. Les émotions correspondent à des états cognitifs complexes qui l'on observe le plus souvent de faible accord entre les annotateurs. Pour la même raison, la fiabilité des corpus de référence utilisés dans les campagnes d'évaluation de la reconnaissance des émotions sont fortement dépendants de cet accord inter-annotateur. En collaboration avec Jeanne Villaneau, je mène ainsi des travaux expérimentaux sur la pertinence des différentes métriques utilisées à la fois pour estimer l'accord inte-annotateur et pour évaluer les systèmes sur cette thématique.

Par ailleurs, notre équipe participe à différentes campagnes d'évaluation compétitives. C'est en particulier le cas dans le domaine de la reconnaissance des entités nommées où nous sommes partie prenante des campagnes d'évaluation ESTER2

(2009) et ETAPE nouvelle fenêtre

(2012) portant sur l'analyse de flux de parole conversationnelle.

icone Travaux et projets

Systèmes de dialogue homme-machine

ARC ILOR-B2 de l'AUF (1996-2000) - Méthodologie d'évaluation DCR (Demande - Contrôle - Résultat) de la compréhension de parole proposée avec Jérôme ZEILIGER (ICP Grenoble), Jean CAELEN (CLIPS-IMAG, désormais LIG Grenoble) et Jacques SIROUX (IRISA, Lannion).
GT 5.5 Compréhension de la parole (GDR-I3 du CNRS ; 1998-2005) - Evaluation par défi de la compréhension de parole.
Projet et campagne d'évaluation MEDIA/EVALDA (Programme TECHNOLANGUE du MESR ; 2002-2005) - Méthodologie d'évaluation s'inspirant pour partie de DCR
Participation à la campagne d'évaluation ESTER2 (2009) et ETAPE (2012) sur la reconnaissance des entités nommées sur de la parole conversationnelle (flux radiodiffusés)

Systèmes d'aide à la communication

Projet ESAC_IMC (Fondation Motrice , 2006-2007) - Etude du comportement des systèmes d'aide à la communication lorsqu'il est utilisé par des patients souffrants de troubles langagiers associés.
Projet VOLTAIRE (AFM , 2008-2009) - Intégration du moteur de prédicteur de Sibylle dans le clavier open source CVK / CiViKey - Evaluation par la PFNT de l'Hôpital de Garches (comparaison de différentes dispositions de l'interface et de différents moteurs de prédiction) dans le cadre du doctorat de Samuel Pouplin .

icone Sélection de publications

Jean-Yves ANTOINE, Marc LE TALLEC, Jeanne VILLANEAU (2011) Evaluation de la détection des émotions, des opinions ou des sentiments : dictatute de la majorité ou respect de la diversité d'opinions ? Actes TALN'2011, Montpellier, France, Juillet 2001 [HAL-00625727]
Damien NOUVEL, Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL (2010) An analysis of the performances of the CasEN named entities detection system in the Ester2 evaluation campaign. Proc. 9th European conference on Language Resources and Evaluation, LREC’2010, Valetta, Malta, May 2010. [HAL-00502370]
Philippe BOISSIERE, Igor SCHADLE, Jean-Yves ANTOINE (2006) A methodological framework for writing assistance systems: applications to sibylle and VITIPI systems. AMSE Journal on Modelling, Mesurement & Control, Série C., Barcelona, Spain. Vol 67, pp. 167-176 .
Laurence DEVILLERS, H. MAYNARD, P. PAROUBEK, S. ROSSET, J-Y. ANTOINE, F. BECHET, C. BOUSQUET, O. BONTRON, L. CHARNAY, K. CHOUKRI, K. McTAIT, L. ROMARY, M. VERGNES, N. VIGOUROUX (2004) The French MEDIA/EVALDA project: the evaluation of the understanding capability of Spoken Language Dialogue Systems. Proc. 4th European Conference on Language Resources and Evaluation, LREC'2004, Lisbonne, Portugal .
Jean-Yves ANTOINE, Caroline BOUSQUET-VERNHETTES, Jerome GOULIAN, Mohamed Zakaria KURDI, Sophie ROSSET, Nadine VIGOUROUX, Jeanne VILLANEAU (2002) Predictive and objective evaluation of speech understanding: the “challenge” evaluation campaign of the I3 speech workgroup of the French CNRS. Proc. 3rd International Conference on Language Resources & Evaluation, LREC’2002, Las Palmas de Gran Canaria, Espagne. pp.529-535
Jean-Yves ANTOINE, Jacques SIROUX, Jean CAELEN, Jeanne VILLANEAU, Jerome GOULIAN, Mohamed AHAFHAF (2000) Obtaining predictive results with an objective evaluation of spoken dialogue systems : experiments with the DCR assessment paradigm, Proc. 2nd International Conference on Language Resources & Evaluation, LREC’2000, Athenes, Grèce .
Jean-Yves ANTOINE, Jean CAELEN (1999) Pour une évaluation objective, prédictive et générique de la compréhension en CHM orale : le paradigme DCR (Demande, Contrôle, Résultat), Revue Langues, 2(2), pp. 130-139 .