photo JY Antoine
Jean-Yves ANTOINE
English version Deutsch Portugese Brezhonneg
Accueil Recherche Publications Enseignement Histoire de l'Art


> Recherche > Entités Nommées et Fouille de Texte
Reconnaissance des entités nommées et fouille de texte

iconePrésentation


L'équipe BDTLN nouvelle fenêtre du laboratoire LI a développé un axe de recherche fort autour des lexiques et de la terminologie. Dans ce cadre, je travaille plus précisément sur la problématique de la reconnaissance et le suivi d'entités nommées, en particulier dans de grands corpus de transcription de parole conversationnelle. Outre les montants numériques et les dates ou horaires, on appelle entité nommée un élément du discours qui réfère à un élément unique de l'univers. Ce peut-être bien entendu un nom propre (Albert Einstein) mais également des expressions poly-lexicales (le génial découvreur de la relativité). L'identification de ces éléments du discours est essentielle aux processus de traitement et de recherche d'information. Leur typage est également essentiel, puisque ces entités sont potentiellement ambigües (par exemple, Cambridge peut référer à une ville, une université, voire une équipe sportive). Au sein de la communauté francophone travaillant sur le langage oral, il est ainsi d'usage de distinguer sept catégories principales : les personnes (Pers), les localisations (Loc), les organisations humaines (Org), les productions humaines (Prod), les montants (Amount), les mesures de temps (Time) et les fonctions telles que président de la république (Fonc).

Notre équipe dispose, avec CasEN, d'un système de détection et typage des entités nommées à base de transducteurs. Initialement développé pour l'écrit, ce système a été adapté à l'oral dans le cadre de la campagne d'évaluationESTER 2nouvelle fenêtre. Cette campagne d'évaluation, qui s'est close en 2009, a montré que les systèmes à base de connaissances pouvaient obtenir de très bons résultats sur ce type de tâche. La constitution manuelle d'une base de connaissances (vocabulaire, règles de détection) très couvrante demande toutefois un effort très important qui n'est pas à la portée de tous. C'est pourquoi nous avons travaillé dans le cadre du doctorat de Damien Nouvel nouvelle fenêtre) à l'intégration de techniques de fouille de texte pour l'extraction automatique de motifs de détection d'entités nommées. Plus précisément, nous travaillons sur l'application de méthodes de fouille hiérarchique de séquences à cette problématique. Par fouille hierarchique, nous voulons exprimer le fait que les motifs de fouille que nous considérons sont multi-niveaux, c'est-à-dire qu'ils peuvent aussi bien considérer le mot en lui-même, mais également son lemme, sa catégorie morphosyntaxique (encore appelée "partie du discours" ou POS pour Part of Speech en anglais) voir une catégorie sémantique supérieure. Ainsi, le mot Grenoble peut-être considéré par le processus de fouille comme le lemme en lui-même, mais également comme la catégorie morphosyntaxique NP (Nom Propre) ou encore la catégorie sémantique CITY (Ville).

Nous avons ainsi dévelopé un système de reconnaissance des entités nommées basé sur les pattrons de détection obtenus par cette fouille hiérarchique, et filtré suivant des heuristiques classiques basées sur des mesures de support (nombre de fois où le motif se retrouve dans le corpus d'apprentissage) et de confiance (proportion de bonnes détections permises par le motif) du motif considéré. L'autre originalité du système est qu'il n'essaie pas de catégoriser chaque mot de l'énoncé, mais de positionner des marques de début et de fin d'entité. Lors du décosage, un modèle stochastique considère ainsi séparément ces marques de début et de fin, ce qui est supposé conférer au système une plus grande robustesse d'analyse face, par exemple, à des disfluences orales ou à des erreurs de reconnaissance de la parole. Notre participation à la campagne d'évaluation ETAPE nouvelle fenêtre nous a permis de quantitifer l'apport de cette stratégie d'analyse. Cette campagne d'évaluation a été remportée par notre système symbolique CasEN, et le système mXS nouvelle fenêtre a obtenu des résultats très encourageants (3° ou 4° position suivant les tâches). Surtout, nous avons depuis développé une stratégie d'hybridation entre les 2 systèmes qui nous a conduit à des performances encore supérieures à celles de CasEN. mXS nouvelle fenêtre est distribué en open source.

Pour récupérer nos outils

Pour en savoir plus : Wikipedia

iconeTravaux et projets


  • Doctorat de Damien Nouvel nouvelle fenêtre (2012 - co-encadrement avec Nathalie Friburger nouvelle fenêtre et Arnaud Soulet nouvelle fenêtre) - Fouille de texte pour la reconnaissance d'entités nommées.
  • Projet EPAC nouvelle fenêtre (ANR Masse de Données, 2007-2010) - Détections d'entités nommées sur de grands flux de parole conversationnelle.
  • Projet VARILING nouvelle fenêtre(ANR SHS ; 2007-2010) - Etiquetage en entités nommées du corpus ESLO2 (Enquête Sociolinguistique de l'Oral d'Orléans).
  • Participation aux la campagne d'évaluation ESTER2 nouvelle fenêtre(2009) et ETAPE nouvelle fenêtre (2012)
  • Projet CO2 (projet Orléans-Tours 2010) et ANCOR nouvelle fenêtre (projet régional, 2012) sur l'étude de la co-référence dans les corpus oraux

icone Sélection de publications


  • Damien NOUVEL, Jean-Yves ANTOINE, Nathalie FRIBURGER (2014) Pattern-Mining for Named Entitiy Recognition. Lecture Notes in Computer Sciences/ LNAI subseries, LNCS-LNAI 8387sortie nouvelle fenetre (revised selected papers of LTC'2011 Conference), Springer, 226-237  [version auteur HAL_01076157 introduction article ACM TASSESTS].
  • Damien NOUVEL, Jean-Yves ANTOINE (2014) Adapting Data Mining for German Named Entity Recognition, Proc. Konvens'2014 Conference, GermEval sattelite workshop, Hildesheim, Allemagne, octobre 2014, 149-152 [HAL_01075678] introduction article ACM TASSESTS.
  • Damien NOUVEL, Nathalie FRIBURGER, Jean-Yves ANTOINE, Arnaud SOULET,  (2013) Fouille de règles d'annotation pour la reconnaissance d'entités nommées. Traitement Automatique des Langues, TAL54(2), pp. 13-41 document PDF TAL 48(2) etat de l'art AAC [HAL 01016337].
  • Damien NOUVEL, Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL (2012) Coupling Knowledge-Based and Data-Driven Systems for Named Entity Recognition. Proc. EACL’2012 Joint Workshop W4 Hybrid’12 : Innovative Hybrid Approaches to Process Textual Data , Avignon, France. pp. 69-77 [HAL-00788166] introduction article ACM TASSESTS.
  • Denis MAUREL, Nathalie FRIBURGER, Jean-Yves ANTOINE, Iris ESKHOL-TARAVELLA, Damien NOUVEL (2011) Cascades de transducteurs autour de la reconnaissance des entités nommées. Traitement Automatique des Langues, TAL52(1)  pp. 69-96 [HAL 00682805] document PDF TAL 48(2) etat de l'art AAC
  • Damien NOUVEL, Jean-Yves ANTOINE, Nathalie FRIBURGER, Arnaud SOULET (2011) Recognizing Named Entities using Automatically Extracted Transduction Rules, Proc. LTC’2001, Language Technology Conference, Poznan, Poland. 136-140. [HAL-00664610] introduction article ACM TASSESTS
  • Damien NOUVEL, Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL (2010) An analysis of the performances of the CasEN named entities detection system in the Ester2 evaluation campaign. Proc. 9th European conference on Language Resources and Evaluation, LREC’2010, Valetta, Malta, May 2010document PDF LREC'2010[HAL-00502370].
  • Damien NOUVEL, Arnaud SOULET, Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL (2010) Reconnaissance d’entités nommées : enrichissement d’un système à base de connaissances à partir de techniques de fouilles de donnnées.Actes TALN'2010, Montréal, Québec, juillet 2010 document PDF PUR 2005.

  • Reconnaissance d'entités nommées et fouille de texterappel haut de page

    Retour en haut de page

    Jean-Yves ANTOINE - Dernière modification : 19 octobre 2014