Linguistique de corpus pour le traitement du
langage parlé
Présentation
Linguistique de corpus - Avec le
développement des
approches centrées
données, la constitution de grands corpus est au
centre des préoccupations de l'ingénierie des
langues. L'utilisation aveugle de ces ressources à
des fins d'apprentissage ne nous apprend toutefois rien sur le langage
véhiculé, et encore moins sur les usages
langagiers que doivent affronter les systèmes de dialogue
homme-machine. L'analyse de corpus pilotes de dialogue homme-homme,
recueillis dans des situations d'usages proches de celles auxquelles
doivent répondre nos systèmes interactifs, permet
au contraire d'éclairer les recherches dans le
domaine de la communication orale homme-machine. Je mène
ainsi des
études qualitatives ou quantitatives (analyse statistique)
de corpus sur différentes procédés
langagiers en les mettant en regard des techniques d'analyse
dévelopées par le TALN et plus
précisément par le traitement du langage
parlé :
- Disfluences orales
(hésitations, répétitions,
reprises)
- Phénomènes
de variations d'ordonnancement linéaire
(dislocations,
extractions) en parole conversationnelle : des études
différentielles, menées sur des corpus de genre
différents, nous ont permis de montrer que si les variations
d'ordre linéaire sont très fréquentes
en français parlé, elles suivent
certaines régularités remarquables qui font que,
même dans le cas d'une élocution
spontanée, on reste en présence d'une langue
à ordre fixe SVO.
- Reprises anaphoriques à
l'oral. Nos
études, menées sur plusieurs corpus dans le cadre
des projets CO2 et ANCOR
,
ont permis de relativiser l'importante des contraintes d'accord en
genre et en nombre. En particulier, nous avons pu quantifier
l'influence de la
métonymie sur ces reprises sans accord. Nous poursuivons
actuellement ces études en nous intéressant
à d'autres heuristiques régulièrement
considérée par les systèmes de
résolution des coréférences.
Constitution et annotation
de corpus oraux (entités nommées,
coréférence, temporalité) - Un
jour ou l'autre, les chercheurs
francophones en TAL ou en linguistique ont été
confrontés au problème de la quasi-inexistance de
corpus de parole conversationnelle librement accessibles pour le
français. Cela m'a amené à
développer le programme PAROLE PUBLIQUE 
de diffusion de corpus
francophones de dialogue oral transcrits orthographiquement.
Conduit
dans le cadre de
financements successifs limités (ARC AUF, programme
Technolangue du MESR), il a pourtant permis la constitution de ce qui
fut un temps le plus grand corpus
francophone de dialogue oral librement accessible. Ce
record a été
pulvérisé dans le cadre de projets ANR auxquels
je participe ( EPAC  ,
VARILING
). Les corpus OTG et Accueil_UBS qu'il
propose restent toutefois un des rares exemples de corpus de dialogue
oral hautement interactif disponibles en français.
Dans le cadre des projets CO2 et ANCOR
 ,
nous travaillons actuellement avec le laboratoire LLL (U.
Orléans) à l' annotation
en entité nommées et en relations anaphoriques
des corpus PAROLE_PUBLIQUE et ESLO (Enquête SocioLinguistique
d'Orléans). Le projet ANCOR a ainsi donné lieu
à la diffusion libre d' ANCOR_Centre  ,
le plus
grand corpus oral annoté en
coréférence disponible pour le
français (488 000 mots, 115 000 mentions, 55 000 relations).
Le projet TEMPORAL
 nous
permet par ailleurs d'étendre ces travaux à
la problématique de l'annotation en temporalité,
pour laquelle nous remettons en question l'adéquation de la
norme TimeML.
Fiabilité de
l'annotation -
Je travaille également avec Jeanne Villaneau (IRISA) sur les
métriques d'évaluation de la fiabilité
de
l'annotation. Il est d'usage assez fréquent en TALN
d'utiliser
une mesure d'accord inter-annotateur tel que le Kappe de Cohen pour
évaluer cette fiabilité. Toutefois, d'autres
métriques sont envisageables (alpha de Krippendorff) de
même que de nombreux biais peuvent influer sur cette
estimation.
Travaux
et projets
- Programme PAROLE
PUBLIQUE
(financement AUF,
Techolangue MESR)- Diffusion libre
de plusieurs corpus de dialogue oral homme-homme dans des domaines
aussi variés que le renseignement touristique, l'accueil
téléphonique ou l'interaction enfantine.
- Projet EPAC
(ANR
Masse de Données ; 2007-2010) - Transcription enrichie
(segmentation en chunks, détection des entités
nommées) de flux de parole conversationnelle (TV, radio)
- Projet VARILING
(ANR SHS ; 2007-2010) -
Etiquetage en entités
nommées du corpus de parole conversationnelle ESLO2
(Enquête Sociolinguistique de l'oral d'Orléans).
- Projet
CO2 (PRES Orléans-Tours) et ANCOR
(projet
région Centre) - Etude linguistique de la
co-référence, en particulier nominale, dans les
corpus
oraux. Etiquetage des corpus PAROLE_PUBLIQUE et ESLO2 en
entités
nommées et en coréférence.
- Projet TEMPORAL
(financement
MSH Val de Loire) - Annotation de corpus oraux en
temporalité.
Sélection
de publications
Temporalité
- Anaïs LEFEUVRE,
Jean-Yves ANTOINE, Agata SAVARY, Emmanuel SCHANG, Lotfi ABOUDA, Denis
MAUREL, Iris ESKHOL (2014) Annotation de la
temporalité en
corpus : contribution à l'amélioration de la
norme TimeML,_ Actes TALN'2014,
Marseille [ACL
F142029
][HAL
01075207 ]
Coréférence
- Adèle DESOYER,
Frédéric LANDRAGIN, Isabelle TELLIER,
Anaïs Lefeuvre, Jean-Yves ANTOINE (2014) Les
coréférences à l’oral : une
expérience d’apprentissage automatique sur le
corpus ANCOR, Traitement
Automatique des Langues, TAL, vol. 55 (2), pp.
97-121
[HAL-SHS-01153297]
- Muzerelle J., Lefeuvre A., Schang
E., Antoine J.-Y., Pelletier A., Maurel D., Eshkol I., Villaneau J.
(2014) ANCOR_Centre, a Large Free Spoken French Coreference Corpus:
Description of the Resource and Reliability Measures. Proc. LREC’2014,
Reykjavik, Islande [HAL_01075679]
.
- Judith MUZERELLE, Anaïs
LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL,
Jeanne VILLANEAU, Iris ESHKOL(2013)
ANCOR, premier corpus de français parlé
d'envergure
annoté en coréférence et
distribué
librement Actes
TALN’2013
, pp.
555-563, Les Sables d’Olonnes, juin 2013 [HAL
01016562].
- Judith MUZERELLE, Aurore BOYER,
Jean-Yves ANTOINE, Emmanuel SCHANG, Iris ESKHOL, Denis MAUREL
(2012) Annotation en relations anaphoriques d'un corpus de discours
oral spontané en français, Actes Congrès Mondial
de
Linguistique Française, Lyon [HAL-00788164]

- Emmanuel SCHANG, Aurore BOYER,
Judith MUZERELLE, Jean-Yves ANTOINE, Iris ESHKOL, Denis MAUREL (2011)
Coreference and anaphoric annotations for spontaneous speech
corpos in French. Proc. DAARC'2011,
Discourse Anaphora and Anaphor
Resolu1on Colloquium, Faro, Portugal [HAL-00831414]
- Jean-Yves
ANTOINE (2004) Résolutions des anaphores
pronominales : quelques postulats du TALN mis à
l'épreuve du dialogue oral finalisé, Actes
TALN'2004, Fès, Maroc
.
Fiabilité de
l'annotation
- Antoine J.-Y., Villaneau J.,
Lefeuvre A. (2014) Weighted Krippendorff's alpha is a more
reliable metrics for multi-coders ordinal annotations: experimental
studies on emotion, opinion and coreference annotation. Proc. 14th Conference of the European
Chapter of the Association of Computational Linguistics,
EACL’2014, Gothenburg, Suède [ACL
Anthology E14-1058;HAL-01001811]
.
Annotation en chunks
- Jean-Yves ANTOINE, Abdenour
MOKRANE, Nathalie FRIBURGER (2008) Automatic rich
annotation of large corpus of conversational transcribed speech : the
chunking task of the EPAC project. Proc. 8th European Conference on
Language Resources and Evaluation, LREC'2008,
Marrakech, Maroc
.
- Abdenour
MOKRANE, Jean-Yves ANTOINE, Nathalie FRIBURGER (2008)
Cascades de
transducteurs pour le chunking de la parole conversationelle :
l'utilisation de la plateforme CasSys dans le projet EPAC. Actes
TALN'2008, Avignon, France
.
Linguistique de corpus
- Jean-Yves ANTOINE (2012)
Influence du genre applicatif sur la réalisation des
extractions en dialogue oral : constantes et variations. Langages.Vol.
187 n° 3, pp. 109-126, Larousse : Armand Colin,
Paris
[HAL
00768591]
- Jean-Yves
ANTOINE, Jerome GOULIAN, Jeanne
VILLANEAU, Marc LE TALLEC(2009)
Word Order Phenomena in Spoken French : a Study on Four Corpora of
Task-Oriented Dialogue and its Consequences on Language Processing.
Proc. Corpus
Linguistics’2009, Liverpool, UK, July
2009
[HAL-00483777].
- Jean-Yves
ANTOINE, Jérôme GOULIAN (2001)
Etude des phénomènes d'extraction en
français parlé sur deux corpus de dialogue oral
finalisé, TAL,
Traitement Automatiques des Langues, 42(2), pp. 413-440

- Jean-Yves
ANTOINE, Jérôme GOULIAN
(2001) Word order variations and spoken man-machine dialogue in French:
a corpus analysis on the ATIS domaine.
Proc. Corpus
Linguistics'2001,
Lancaster, Royaume-Uni, pp. 22-29.
- Sabine
LETELLIER-ZARSHENAS, Pascale NICOLAS, Jerome GOULIAN, Jean-Yves ANTOINE
(1999) Inattendus
structurels et communication orale finalisée : influence de
la tâche et du contexte interactif. Actes Journées
Internationales de Linguistique Appliquée, JILA'99, Nice,
France. pp. 176-179
.
Transcription et diffusion
de corpus oraux
- Jean-Yves
ANTOINE, Sabine LETTELIER-ZARSHENAS, Igor SCHADLE (2005)
Le projet PAROLE PUBLIQUE de constitution d'un large corpus francophone
de dialogue oral : réalisations et perspectives, in Geoffrey
WILLIAMS (Ed.) La
linguistique de corpus, PUR, Presses Universitaires de
Rennes, Rennes, France, pp. 193-204
.
Linguistique de corpus pour
le traitement du langage parlé
|