Reconnaissance des entités
nommées et fouille de texte
Présentation
L'équipe
BDTLN
du
laboratoire LI a
développé un axe de recherche fort autour des
lexiques et de la terminologie. Dans ce cadre, je travaille plus
précisément sur la problématique de la
reconnaissance
et le suivi d'entités nommées,
en particulier dans de grands corpus de transcription de parole
conversationnelle. Outre les montants numériques et les
dates ou horaires, on appelle entité nommée un
élément du discours qui
réfère à un
élément unique de l'univers. Ce
peut-être bien entendu un nom propre (Albert
Einstein)
mais également des expressions poly-lexicales (le
génial
découvreur de la relativité).
L'identification de ces éléments du discours est
essentielle aux processus de traitement et de recherche d'information.
Leur typage est également essentiel, puisque ces
entités sont potentiellement ambigües (par exemple,
Cambridge
peut référer à une ville, une
université, voire une équipe sportive). Au sein
de la communauté francophone travaillant sur le langage
oral, il est ainsi d'usage de distinguer sept catégories
principales : les personnes (Pers), les localisations (Loc), les
organisations humaines (Org), les productions humaines (Prod), les
montants (Amount), les mesures de temps (Time) et les fonctions telles
que président de la république (Fonc).
Notre équipe
dispose, avec CasEN, d'un
système de
détection et typage des entités
nommées à
base de transducteurs. Initialement développé
pour
l'écrit, ce système a été
adapté
à l'oral dans le cadre de la campagne
d'évaluationESTER 2 .
C ette campagne
d'évaluation, qui s'est close en 2009, a
montré que les systèmes à base de
connaissances
pouvaient obtenir de très bons résultats sur ce
type de
tâche. La constitution manuelle d'une base de connaissances
(vocabulaire, règles de détection)
très couvrante
demande toutefois un effort très important qui n'est pas
à la portée de tous. C'est pourquoi nous avons
travaillé dans le cadre du doctorat de Damien
Nouvel  )
à l'intégration de techniques de fouille
de texte
pour l'extraction automatique de motifs de détection
d'entités nommées. Plus
précisément, nous
travaillons sur l'application de méthodes de fouille
hiérarchique
de séquences
à cette
problématique. Par fouille hierarchique, nous
voulons
exprimer le fait que les motifs de fouille que nous
considérons
sont multi-niveaux, c'est-à-dire qu'ils peuvent aussi bien
considérer le mot en lui-même, mais
également son
lemme, sa catégorie morphosyntaxique (encore
appelée
"partie du discours" ou POS pour Part
of Speech
en anglais) voir une catégorie
sémantique supérieure. Ainsi, le mot Grenoble
peut-être considéré par le processus de
fouille
comme le lemme en lui-même, mais également comme
la
catégorie morphosyntaxique NP (Nom Propre) ou encore la
catégorie sémantique CITY (Ville).
Nous avons ainsi
dévelopé un système de
reconnaissance des entités
nommées
basé sur les pattrons de détection obtenus par
cette
fouille hiérarchique, et filtré suivant des
heuristiques
classiques basées sur des mesures de
support (nombre de fois où le motif se retrouve dans le
corpus d'apprentissage) et de confiance (proportion de bonnes
détections permises par le motif) du motif
considéré. L'autre originalité du
système est qu'il n'essaie pas de catégoriser
chaque mot
de l'énoncé, mais de positionner des marques de
début et de fin d'entité. Lors du
décosage, un
modèle
stochastique considère
ainsi séparément ces marques de début
et de fin,
ce qui est supposé conférer au système
une plus
grande robustesse d'analyse face, par exemple, à des
disfluences
orales ou à des erreurs de reconnaissance de la parole.
Notre participation à la campagne
d'évaluation ETAPE
nous a permis de
quantitifer l'apport de cette
stratégie d'analyse. Cette campagne d'évaluation
a
été remportée par notre
système symbolique
CasEN, et le système mXS
a obtenu des
résultats très encourageants (3° ou
4° position suivant les tâches). Surtout, nous
avons depuis développé une stratégie
d'hybridation
entre les 2 systèmes qui nous a conduit à des
performances encore supérieures à celles de
CasEN. mXS
est distribué
en open source.
Pour
récupérer nos outils
Pour
en savoir plus : Wikipedia
Travaux
et projets
- Doctorat de Damien
Nouvel
(2012 - co-encadrement avec Nathalie Friburger
et Arnaud Soulet )
- Fouille de texte pour la reconnaissance d'entités
nommées.
- Projet EPAC
(ANR
Masse de
Données, 2007-2010) - Détections
d'entités nommées sur de grands
flux de parole conversationnelle.
- Projet VARILING
(ANR
SHS ; 2007-2010) - Etiquetage en entités
nommées du corpus ESLO2
(Enquête Sociolinguistique de l'Oral d'Orléans).
- Participation aux la
campagne d'évaluation ESTER2
(2009)
et ETAPE
(2012)
- Projet CO2 (projet
Orléans-Tours 2010) et ANCOR
(projet
régional,
2012) sur l'étude de la
co-référence dans les corpus oraux
Sélection
de publications
Damien NOUVEL, Jean-Yves ANTOINE,
Nathalie FRIBURGER (2014) Pattern-Mining for Named
Entitiy Recognition. Lecture
Notes in Computer Sciences/ LNAI subseries, LNCS-LNAI 8387
(revised selected papers of LTC'2011 Conference), Springer, 226-237
[version auteur HAL_01076157 ].
Damien NOUVEL, Jean-Yves ANTOINE
(2014) Adapting Data Mining for German Named Entity Recognition, Proc.
Konvens'2014
Conference, GermEval
sattelite workshop, Hildesheim, Allemagne, octobre 2014,
149-152 [HAL_01075678] .
Damien NOUVEL, Nathalie FRIBURGER,
Jean-Yves ANTOINE, Arnaud SOULET, (2013)
Fouille de règles d'annotation pour la reconnaissance
d'entités nommées. Traitement
Automatique des Langues, TAL, 54(2), pp.
13-41 [HAL
01016337].
Damien
NOUVEL, Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL
(2012) Coupling Knowledge-Based and Data-Driven
Systems for
Named Entity Recognition. Proc. EACL’2012
Joint Workshop W4 Hybrid’12 : Innovative Hybrid Approaches to
Process Textual Data , Avignon, France. pp. 69-77 [HAL-00788166]
.
Denis MAUREL, Nathalie FRIBURGER,
Jean-Yves ANTOINE, Iris ESKHOL-TARAVELLA, Damien NOUVEL (2011)
Cascades de transducteurs autour de la reconnaissance des
entités nommées. Traitement
Automatique des Langues, TAL, 52(1)
pp. 69-96 [HAL
00682805]
Damien NOUVEL,
Jean-Yves ANTOINE, Nathalie FRIBURGER, Arnaud SOULET
(2011) Recognizing
Named Entities using Automatically Extracted Transduction Rules, Proc. LTC’2001,
Language
Technology Conference, Poznan, Poland. 136-140. [HAL-00664610]
Damien
NOUVEL, Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL (2010)
An analysis of the performances of the CasEN named entities detection
system in the Ester2 evaluation campaign.
Proc. 9th European
conference on Language Resources and Evaluation, LREC’2010,
Valetta, Malta, May 2010 [HAL-00502370].
Damien NOUVEL, Arnaud SOULET,
Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL
(2010) Reconnaissance d’entités nommées
: enrichissement d’un système à base de
connaissances à partir de techniques de fouilles de
donnnées.Actes TALN'2010,
Montréal, Québec, juillet 2010 .
Reconnaissance d'entités
nommées et fouille de texte
|