Corpus
ANCOR_Centre
Description
Description
-
Description
détaillée
Nom et
version
du corpus |
ANCOR_Centre
— Version 1.1 (26 octobre 2014) |
Fournisseur |
Laboratoires
LI
(équipe BDTLN),
LLL et
LATTICE |
Concepteurs |
Judith
Muzerelle, Anaïs
Lefeuvre, Aurore Pelletier, Emmanuel Schang,
Jean-Yves
Antoine |
Type de
corpus |
Annotation
en coréférences et anaphores associatives de
trois
corpus de parole spontanée transcrite : ESLO
et CO2 (interview sociolinguistique), OTG
(dialogue oral homme-homme
finalisé), Accueil_UBS
(dialogue oral finalisé au
téléphone) |
Contenu
du
corpus |
30,5
h d'enregistrement
— 487 000 mots — 116 000 mentions - 51 000
relations de coréférence ou anaphores -
Transcriptions
orthographiques au format .ac GLOZZ
-
Annotations déportées au format .aa GLOZZ
ou également annotation intégrée
directement utilisable pour des méthodes d'apprentissage
automatique |
Licence de distribution |
Creative
Commons CC-BY-SA
(partie PAROLE PUBLIQUE) et CC-BY-SA-NC
(partie ESLO) |
Annotation
et révision |
Judith
Muzerelle (LLL), Aurore Pelletier (LLL) + corrections
automatiques Anaïs
Lefeuvre-Halftermeyer |
Format annotation
intégré |
Adèle
Désoyer (LATTICE), Frédéric
Landragin (LATTICE), Isabelle
TELLIER (LATTICE) |
Evaluation
fiabilité |
Supervision : Anaïs
Lefeuvre-Halftermeyer
(LI), Jean-Yves
Antoine
(LI), Jeanne
Villaneau (IRISA); Participation (annotateurs pilotes) : Iris
Eshkol (LLL), Denis Maurel (LI), Judith Muzerelle
(LLL), Emmanuel Schang (LLL) |
Financement |
Principal
- Région Centre
(APR-IA
2012) : 90 000 €
Complémentaires
- Consortium IRCOM
(1500
€) ) et ANR
Orfeo
(2500 €) |
Distribution
du corpus
- Ce corpus est diffusé
également via le
Speech and Language Data Repository / Ortolang : [SLDR/ORTOLANG
000903]

- Le corpus n'est
distribué que par téléchargement : archive ZIP comportant
l'intégralité du corpus

Convention
d'utilisation - Licence de distribution
Le
corpus ANCOR_Centre est distribué gratuitement sous licence
Creative
Commons
CC-BY-SA pour ce qui est des données concernant les corpus
OTG,
Accueil_UBS et CO2, et sous licence CC-BY-SA-NC pour le corpus
lié à ESLO.
Cela signifie que vous devez respecter le contrat
d’utilisation suivant :
- BY :
paternité
-
Vous devez citer les auteurs de ce corpus pour toute utilisation du
corpus.
Dans le cas d’une publication s’appuyant sur ces
travaux,
nous vous demandons
ainsi de citer les articles référencés
dans la
description de la ressource jointe à la distribution ou dans
la
liste ci-dessous.
- SA :
partage des
conditions initiales à l’identique -
Vous ne pouvez créer une nouvelle ressource à
partir de la ressource existante
et en faire ensuite un usage différent de celui
imposé par ce contrat. Là
encore, nous sommes ouverts à toute utilisation du corpus
pour création de
nouvelles ressources, mais nous vous demandons de nous contacter pour
discuter
de ces nouveaux usages.
- NC
:
pas d'usage commercial sans
autorisation du détenteur des droits sur la ressource.
Important - Par
ailleurs, malgré tout le soin porté à
l'anonymation des locuteurs, cette
ressource peut intégrer des échanges dont la
communication porte atteinte à
la protection de la vie privée ou portant
appréciation ou jugement de
valeur sur une personne physique nommément
désignée, ou facilement
identifiable, ou qui font apparaître le comportement d'une
personne
dans des conditions susceptibles de lui porter préjudice.
(Code du
Patrimoine, art. L. 213-2, I, 3) . A ce titre, ce corpus peut
être
utilisé à des fins d'analyse,
mais en
aucun cas ne peut être destiné à
d'autres usages donnant lieu par exemple à diffusion
en public des données sonores sources.
Publications
liées à la ressource
- Judith MUZERELLE, Anaïs
LEFEUVRE, Emmanuel SCHANG,Jean-Yves ANTOINE, Aurore
PELLETIER, Denis MAUREL, Iris ESHKOL,
Jeanne VILLANEAU (2014)
ANCOR_Centre, a large free spoken French coreference corpus :
description of the resource and reliability measures. Proc. LREC'2014,
Reyjaviik, Islande[HAL_01075679]
.
- Judith MUZERELLE, Anaïs
LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne
VILLANEAU, Iris ESHKOL (2013).
ANCOR : premier corpus de français parlé
d'envergure
annoté en coréférence et
distribué
librement. Actes
TALN'2013.
Les Sables d'Olonnes [HAL
01016562].

- Judith MUZERELLE, Aurore
PELLETIER-BOYER, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL,
Jeanne VILLANEAU, Iris ESHKOL (2012). Annotation en
relations anaphoriques d'un corpus de discours oral spontané
en français. Proc. Congrès Mondial de
Linguistique Française, CMLF’2012,
Lyon [HAL-00788164]
.
- (pour la
partie annotation intégrée uniquement) Adèle DESOYER (2014)
Apprentissage d’un modèle de résolution
automatique de la coréférence à partir
d’un corpus de français oral. Mémoire
de recherche Master Documents Electroniques et Flux
d’Informations, Université Paris Ouest - Nanterre
La Défense.

Ce(tte)
œuvre est mise à disposition selon les termes de
la Licence
Creative Commons Attribution - Partage dans les Mêmes
Conditions 3.0 France.