PAROLE PUBLIQUE : logo
English version
Accueil Corpus Publications Partenaires Liens


> Corpus > ANCOR_Centre

icon 1Corpus ANCOR_Centre                                   

iconeDescription


Description - Description détaillée document PDF

Nom et version du corpus ANCOR_Centre — Version 1.1 (26 octobre 2014)
Fournisseur Laboratoires LI (équipe BDTLN), LLL et LATTICE
Concepteurs Judith Muzerelle, Anaïs Lefeuvre, Aurore Pelletier, Emmanuel SchangJean-Yves Antoine
Type de corpus Annotation en coréférences et anaphores associatives de trois corpus de parole spontanée transcrite : ESLO sortie site et CO2 (interview sociolinguistique), OTG (dialogue oral homme-homme finalisé), Accueil_UBS (dialogue oral finalisé au téléphone)
Contenu du corpus 30,5 h d'enregistrement — 487 000 mots — 116 000 mentions - 51 000 relations de coréférence ou anaphores - Transcriptions orthographiques au format .ac GLOZZ sortie site- Annotations déportées au format .aa GLOZZ sortie site ou également annotation intégrée directement utilisable pour des méthodes d'apprentissage automatique
Licence de distribution Creative Commons CC-BY-SA  Logo_CC_BY_SA (partie PAROLE PUBLIQUE) et CC-BY-NC-SACC-BY-SA-NC (partie ESLO)
Annotation et révision Judith Muzerelle (LLL), Aurore Pelletier (LLL) + corrections automatiques Anaïs Lefeuvre-Halftermeyer
Format annotation intégré Adèle Désoyer (LATTICE), Frédéric Landragin (LATTICE), Isabelle TELLIER (LATTICE)
Evaluation fiabilité Supervision : Anaïs Lefeuvre-Halftermeyer (LI), Jean-Yves Antoine (LI), Jeanne Villaneau (IRISA); Participation (annotateurs pilotes) Iris Eshkol (LLL), Denis Maurel (LI), Judith Muzerelle (LLL), Emmanuel Schang (LLL)
Financement Principal - Région Centre sortie site(APR-IA 2012) : 90 000 €
Complémentaires - Consortium IRCOM sortie site(1500 €) ) et ANR Orfeo sortie site (2500 €) 

icone Distribution du corpus


  • Ce corpus est diffusé également via le Speech and Language Data Repository / Ortolang : [SLDR/ORTOLANG 000903sortie site
  • Le corpus n'est distribué que par téléchargement : archive ZIP comportant l'intégralité du corpusarchive zip corpus

icone Convention d'utilisation - Licence de distribution



Le corpus ANCOR_Centre est distribué gratuitement sous licence Creative Commons CC-BY-SA pour ce qui est des données concernant les corpus OTG, Accueil_UBS et CO2, et sous licence CC-BY-SA-NC pour le corpus lié à ESLO.

Logo_CC_BY_SA  CC-BY-NC-SA

Cela signifie que vous devez respecter le contrat d’utilisation suivant :

-    BY : paternité - Vous devez citer les auteurs de ce corpus pour toute utilisation du corpus. Dans le cas d’une publication s’appuyant sur ces travaux, nous vous demandons ainsi de citer les articles référencés dans la description de la ressource jointe à la distribution ou dans la liste ci-dessous.

-    SA : partage des conditions initiales à l’identique  - Vous ne pouvez créer une nouvelle ressource à partir de la ressource existante et en faire ensuite un usage différent de celui imposé par ce contrat. Là encore, nous sommes ouverts à toute utilisation du corpus pour création de nouvelles ressources, mais nous vous demandons de nous contacter pour discuter de ces nouveaux usages.

-    NC : pas d'usage commercial  sans autorisation du détenteur des droits sur la ressource.

Important - Par ailleurs, malgré tout le soin porté à l'anonymation des locuteurs, cette ressource peut intégrer des échanges dont la communication porte atteinte à la protection de la vie privée ou portant appréciation ou jugement de valeur sur une personne physique nommément désignée, ou facilement identifiable, ou qui font apparaître le comportement d'une personne dans des conditions susceptibles de lui porter préjudice. (Code du Patrimoine, art. L. 213-2, I, 3) . A ce titre, ce corpus peut être utilisé à des fins d'analyse,  mais en aucun cas ne peut être destiné à d'autres usages donnant lieu par exemple à diffusion en public des données sonores sources.

icone Publications liées à la ressource


  • Judith MUZERELLE, Anaïs LEFEUVRE, Emmanuel SCHANG,Jean-Yves ANTOINE, Aurore PELLETIER, Denis MAUREL, Iris ESHKOL, Jeanne VILLANEAU (2014) ANCOR_Centre, a large free spoken French coreference corpus : description of the resource and reliability measures. Proc. LREC'2014, Reyjaviik, Islande[HAL_01075679] introduction article ACM TASSESTS.
  • Judith MUZERELLE, Anaïs LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL (2013). ANCOR : premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. Actes TALN'2013. Les Sables d'Olonnes [HAL 01016562]introduction article ACM TASSESTS
  • Judith MUZERELLE, Aurore PELLETIER-BOYER, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL (2012). Annotation en relations anaphoriques d'un corpus de discours oral spontané en français. Proc. Congrès Mondial de Linguistique Française, CMLF’2012, Lyon [HAL-00788164] document PDF PUR 2005.
  • (pour la partie annotation intégrée uniquementAdèle DESOYER (2014) Apprentissage d’un modèle de résolution automatique de la coréférence à partir d’un corpus de français oral. Mémoire de recherche Master Documents Electroniques et Flux d’Informations, Université Paris Ouest - Nanterre La Défense. 
Licence Creative CommonsLicence CC_BY_SA CC-BY-NC-SA
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Partage dans les Mêmes Conditions 3.0 France.

Jean-Yves ANTOINE - Dernière modification : 3 août 2016