photo JY Antoine
Jean-Yves ANTOINE
English versionDeutsch Portugese Brezhonneg 
Accueil Recherche Publications Enseignement Histoire de l'Art


> Recherche > Linguistique de corpus
Linguistique de corpus pour le traitement du langage parlé

iconePrésentation



Linguistique de corpus - Avec le développement des approches centrées données, la constitution de grands corpus est au centre des préoccupations de l'ingénierie des langues. L'utilisation aveugle de ces ressources  à des fins d'apprentissage ne nous apprend toutefois rien sur le langage véhiculé, et encore moins sur les usages langagiers que doivent affronter les systèmes de dialogue homme-machine. L'analyse de corpus pilotes de dialogue homme-homme, recueillis dans des situations d'usages proches de celles auxquelles doivent répondre nos systèmes interactifs, permet au contraire d'éclairer les recherches dans le domaine de la communication orale homme-machine. Je mène ainsi des études qualitatives ou quantitatives (analyse statistique) de corpus sur différentes procédés langagiers en les mettant en regard des techniques d'analyse dévelopées par le TALN et plus précisément par le traitement du langage parlé :
  • Disfluences orales (hésitations, répétitions, reprises)
  • Phénomènes de variations d'ordonnancement linéaire (dislocations, extractions) en parole conversationnelle : des études différentielles, menées sur des corpus de genre différents, nous ont permis de montrer que si les variations d'ordre linéaire sont très fréquentes en français parlé, elles suivent certaines régularités remarquables qui font que, même dans le cas d'une élocution spontanée, on reste en présence d'une langue à ordre fixe SVO.
  • Reprises anaphoriques à l'oral. Nos études, menées sur plusieurs corpus dans le cadre des projets CO2 et ANCOR nouvelle fenêtre, ont permis de relativiser l'importante des contraintes d'accord en genre et en nombre. En particulier, nous avons pu quantifier l'influence de la métonymie sur ces reprises sans accord. Nous poursuivons actuellement ces études en nous intéressant à d'autres heuristiques régulièrement considérée par les systèmes de résolution des coréférences.

Constitution et annotation de corpus oraux (entités nommées, coréférence, temporalité) - Un jour ou l'autre, les chercheurs francophones en TAL ou en linguistique ont été confrontés au problème de la quasi-inexistance de corpus de parole conversationnelle librement accessibles pour le français. Cela m'a amené à développer le programme PAROLE PUBLIQUE sortie nouvelle fenetre de diffusion de corpus francophones de dialogue oral transcrits orthographiquement. Conduit dans le cadre de financements successifs limités (ARC AUF, programme Technolangue du MESR), il a pourtant permis la constitution de ce qui fut un temps le plus grand corpus francophone de dialogue oral librement accessible. Ce record a été pulvérisé dans le cadre de projets ANR auxquels je participe (EPAC sortie nouvelle fenetre, VARILING sortie nouvelle fenetre ). Les corpus OTG et Accueil_UBS qu'il propose restent toutefois un des rares exemples de corpus de dialogue oral hautement interactif disponibles en français.

Dans le cadre des projets CO2 et ANCOR nouvelle fenêtre, nous travaillons actuellement avec le laboratoire LLL (U. Orléans) à l'annotation en entité nommées et en relations anaphoriques des corpus PAROLE_PUBLIQUE et ESLO (Enquête SocioLinguistique d'Orléans). Le projet ANCOR a ainsi donné lieu à la diffusion libre d'ANCOR_Centre nouvelle fenêtre, le plus grand corpus oral annoté en coréférence disponible pour le français (488 000 mots, 115 000 mentions, 55 000 relations).

Le projet TEMPORAL nouvelle fenêtrenous permet par ailleurs d'étendre ces travaux à la problématique de l'annotation en temporalité, pour laquelle nous remettons en question l'adéquation de la norme TimeML.

Fiabilité de l'annotation  - Je travaille également avec Jeanne Villaneau (IRISA) sur les métriques d'évaluation de la fiabilité de l'annotation. Il est d'usage assez fréquent en TALN d'utiliser une mesure d'accord inter-annotateur tel que le Kappe de Cohen pour évaluer cette fiabilité. Toutefois, d'autres métriques sont envisageables (alpha de Krippendorff) de même que de nombreux biais peuvent influer sur cette estimation.

icone Travaux et projets


  • Programme PAROLE PUBLIQUE sortie nouvelle fenetre (financement AUF, Techolangue MESR)- Diffusion libre de plusieurs corpus de dialogue oral homme-homme dans des domaines aussi variés que le renseignement touristique, l'accueil téléphonique ou l'interaction enfantine.
  • Projet EPAC sortie nouvelle fenetre(ANR Masse de Données ; 2007-2010) - Transcription enrichie (segmentation en chunks, détection des entités nommées) de flux de parole conversationnelle (TV, radio)
  • Projet VARILING sortie nouvelle fenetre (ANR SHS ; 2007-2010) - Etiquetage en entités nommées du corpus de parole conversationnelle ESLO2 (Enquête Sociolinguistique de l'oral d'Orléans).
  • Projet CO2 (PRES Orléans-Tours) et ANCOR nouvelle fenêtre(projet région Centre) - Etude linguistique de la co-référence, en particulier nominale, dans les corpus oraux. Etiquetage des corpus PAROLE_PUBLIQUE et ESLO2 en entités nommées et en coréférence.
  • Projet TEMPORAL nouvelle fenêtre(financement MSH Val de Loire) - Annotation de corpus oraux en temporalité.

icone Sélection de publications



Temporalité
  • Anaïs LEFEUVRE, Jean-Yves ANTOINE, Agata SAVARY, Emmanuel SCHANG, Lotfi ABOUDA, Denis MAUREL, Iris ESKHOL (2014) Annotation de la temporalité en corpus : contribution à l'amélioration de la norme TimeML,_ Actes TALN'2014, Marseille [ACL F142029sortie site][HAL 01075207sortie site]

Coréférence
  • Adèle DESOYER, Frédéric LANDRAGIN, Isabelle TELLIER, Anaïs Lefeuvre, Jean-Yves ANTOINE (2014) Les coréférences à l’oral : une expérience d’apprentissage automatique sur le corpus ANCOR, Traitement Automatique des Langues, TAL, vol. 55 (2), pp. 97-121introduction article ACM TASSESTS [HAL-SHS-01153297]
  • Muzerelle J., Lefeuvre A., Schang E., Antoine J.-Y., Pelletier A., Maurel D., Eshkol I., Villaneau J. (2014) ANCOR_Centre, a Large Free Spoken French Coreference Corpus: Description of the Resource and Reliability Measures. Proc. LREC’2014, Reykjavik, Islande [HAL_01075679] introduction article ACM TASSESTS.
  • Judith MUZERELLE, Anaïs LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL(2013) ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement Actes TALN’2013 sortie site, pp. 555-563, Les Sables d’Olonnes, juin 2013 [HAL 01016562].
  • Judith MUZERELLE, Aurore BOYER, Jean-Yves ANTOINE, Emmanuel SCHANG, Iris ESKHOL, Denis MAUREL (2012) Annotation en relations anaphoriques d'un corpus de discours oral spontané en français, Actes Congrès Mondial de Linguistique Française, Lyon [HAL-00788164] document PDF PUR 2005
  • Emmanuel SCHANG, Aurore BOYER, Judith MUZERELLE, Jean-Yves ANTOINE, Iris ESHKOL, Denis MAUREL (2011) Coreference and anaphoric annotations for spontaneous speech corpos in French. Proc. DAARC'2011, Discourse Anaphora and Anaphor Resolu1on Colloquium, Faro, Portugal [HAL-00831414]introduction article ACM TASSESTS
  • Jean-Yves ANTOINE (2004) Résolutions des anaphores pronominales : quelques postulats du TALN mis à l'épreuve du dialogue oral finalisé, Actes TALN'2004, Fès, Maroc document PDF TALN'2004.
Fiabilité de l'annotation
  • Antoine J.-Y., Villaneau J., Lefeuvre A. (2014) Weighted Krippendorff's alpha is a more reliable metrics for multi-coders ordinal annotations: experimental studies on emotion, opinion and coreference annotation. Proc. 14th Conference of the European Chapter of the Association of Computational Linguistics, EACL’2014, Gothenburg, Suède [ACL Anthology E14-1058;HAL-01001811] introduction article ACM TASSESTS.
Annotation en chunks
  • Jean-Yves ANTOINE, Abdenour MOKRANE, Nathalie FRIBURGER (2008) Automatic rich annotation of large corpus of conversational transcribed speech : the chunking task of the EPAC project. Proc. 8th European Conference on Language Resources and Evaluation, LREC'2008, Marrakech, Maroc document LREC 2008.
  • Abdenour MOKRANE, Jean-Yves ANTOINE, Nathalie FRIBURGER (2008) Cascades de transducteurs pour le chunking de la parole conversationelle : l'utilisation de la plateforme CasSys dans le projet EPAC. Actes TALN'2008, Avignon, France document TALN 2008.
Linguistique de corpus
  • Jean-Yves ANTOINE (2012) Influence du genre applicatif sur la réalisation des extractions en dialogue oral : constantes et variations. Langages.Vol. 187 n° 3, pp. 109-126, Larousse : Armand Colin, Paris document PDF TAL 48(2) etat de l'art AAC  [HAL 00768591]
  • Jean-Yves ANTOINE, Jerome GOULIAN, Jeanne VILLANEAU, Marc LE TALLEC(2009) Word Order Phenomena in Spoken French : a Study on Four Corpora of Task-Oriented Dialogue and its Consequences on Language Processing. Proc. Corpus Linguistics’2009, Liverpool, UK, July 2009 document PDF LREC'2008[HAL-00483777].
  • Jean-Yves ANTOINE, Jérôme GOULIAN (2001) Etude des phénomènes d'extraction en français parlé sur deux corpus de dialogue oral finalisé, TAL, Traitement Automatiques des Langues, 42(2), pp. 413-440 document PDF article TAL 42(2)
  • Jean-Yves ANTOINE, Jérôme GOULIAN (2001) Word order variations and spoken man-machine dialogue in French: a corpus analysis on the ATIS domaine. Proc. Corpus Linguistics'2001, Lancaster, Royaume-Uni, pp. 22-29. article PDF Corpus Linguistics 2001
  • Sabine LETELLIER-ZARSHENAS, Pascale NICOLAS, Jerome GOULIAN, Jean-Yves ANTOINE (1999) Inattendus structurels et communication orale finalisée : influence de la tâche et du contexte interactif. Actes Journées Internationales de Linguistique Appliquée, JILA'99, Nice, France. pp. 176-179 article JILZ 1999.
Transcription et diffusion de corpus oraux
  • Jean-Yves ANTOINE, Sabine LETTELIER-ZARSHENAS, Igor SCHADLE (2005) Le projet PAROLE PUBLIQUE de constitution d'un large corpus francophone de dialogue oral : réalisations et perspectives, in Geoffrey WILLIAMS (Ed.) La linguistique de corpus, PUR, Presses Universitaires de Rennes, Rennes, France, pp. 193-204 document PDF PUR 2005.
Linguistique de corpus pour le traitement du langage parlérappel haut de page

Jean-Yves ANTOINE - Dernière modification : 20 mai 2015