PAROLE PUBLIQUE : corpus ANCOR

Corpus ANCOR_Centre

icone Description

Description - Description détaillée

Nom et version du corpus	ANCOR_Centre — Version 1.1 (26 octobre 2014)
Fournisseur	Laboratoires LI (équipe BDTLN), LLL et LATTICE
Concepteurs	Judith Muzerelle, Anaïs Lefeuvre, Aurore Pelletier, Emmanuel Schang, Jean-Yves Antoine
Type de corpus	Annotation en coréférences et anaphores associatives de trois corpus de parole spontanée transcrite : ESLO et CO2 (interview sociolinguistique), OTG (dialogue oral homme-homme finalisé), Accueil_UBS (dialogue oral finalisé au téléphone)
Contenu du corpus	30,5 h d'enregistrement — 487 000 mots — 116 000 mentions - 51 000 relations de coréférence ou anaphores - Transcriptions orthographiques au format .ac GLOZZ - Annotations déportées au format .aa GLOZZ ou également annotation intégrée directement utilisable pour des méthodes d'apprentissage automatique
Licence de distribution	Creative Commons CC-BY-SA (partie PAROLE PUBLIQUE) et CC-BY-SA-NC (partie ESLO)
Annotation et révision	Judith Muzerelle (LLL), Aurore Pelletier (LLL) + corrections automatiques Anaïs Lefeuvre-Halftermeyer
Format annotation intégré	Adèle Désoyer (LATTICE), Frédéric Landragin (LATTICE), Isabelle TELLIER (LATTICE)
Evaluation fiabilité	Supervision : Anaïs Lefeuvre-Halftermeyer (LI), Jean-Yves Antoine (LI), Jeanne Villaneau (IRISA); Participation (annotateurs pilotes) : Iris Eshkol (LLL), Denis Maurel (LI), Judith Muzerelle (LLL), Emmanuel Schang (LLL)
Financement	Principal - Région Centre (APR-IA 2012) : 90 000 € Complémentaires - Consortium IRCOM (1500 €) ) et ANR Orfeo (2500 €)

icone Distribution du corpus

Ce corpus est diffusé également via le Speech and Language Data Repository / Ortolang : [SLDR/ORTOLANG 000903]

Le corpus n'est distribué que par téléchargement : archive ZIP comportant l'intégralité du corpus

icone Convention d'utilisation - Licence de distribution

Le corpus ANCOR_Centre est distribué gratuitement sous licence Creative Commons CC-BY-SA pour ce qui est des données concernant les corpus OTG, Accueil_UBS et CO2, et sous licence CC-BY-SA-NC pour le corpus lié à ESLO.

Cela signifie que vous devez respecter le contrat d’utilisation suivant :

- BY : paternité - Vous devez citer les auteurs de ce corpus pour toute utilisation du corpus. Dans le cas d’une publication s’appuyant sur ces travaux, nous vous demandons ainsi de citer les articles référencés dans la description de la ressource jointe à la distribution ou dans la liste ci-dessous.

- SA : partage des conditions initiales à l’identique - Vous ne pouvez créer une nouvelle ressource à partir de la ressource existante et en faire ensuite un usage différent de celui imposé par ce contrat. Là encore, nous sommes ouverts à toute utilisation du corpus pour création de nouvelles ressources, mais nous vous demandons de nous contacter pour discuter de ces nouveaux usages.

- NC : pas d'usage commercial sans autorisation du détenteur des droits sur la ressource.

Important - Par ailleurs, malgré tout le soin porté à l'anonymation des locuteurs, cette ressource peut intégrer des échanges dont la communication porte atteinte à la protection de la vie privée ou portant appréciation ou jugement de valeur sur une personne physique nommément désignée, ou facilement identifiable, ou qui font apparaître le comportement d'une personne dans des conditions susceptibles de lui porter préjudice. (Code du Patrimoine, art. L. 213-2, I, 3) . A ce titre, ce corpus peut être utilisé à des fins d'analyse, mais en aucun cas ne peut être destiné à d'autres usages donnant lieu par exemple à diffusion en public des données sonores sources.

icone Publications liées à la ressource

Judith MUZERELLE, Anaïs LEFEUVRE, Emmanuel SCHANG,Jean-Yves ANTOINE, Aurore PELLETIER, Denis MAUREL, Iris ESHKOL, Jeanne VILLANEAU (2014) ANCOR_Centre, a large free spoken French coreference corpus : description of the resource and reliability measures. Proc. LREC'2014, Reyjaviik, Islande[HAL_01075679] .
Judith MUZERELLE, Anaïs LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL (2013). ANCOR : premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. Actes TALN'2013. Les Sables d'Olonnes [HAL 01016562].

Judith MUZERELLE, Aurore PELLETIER-BOYER, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL (2012). Annotation en relations anaphoriques d'un corpus de discours oral spontané en français. Proc. Congrès Mondial de Linguistique Française, CMLF’2012, Lyon [HAL-00788164] .
(pour la partie annotation intégrée uniquement) Adèle DESOYER (2014) Apprentissage d’un modèle de résolution automatique de la coréférence à partir d’un corpus de français oral. Mémoire de recherche Master Documents Electroniques et Flux d’Informations, Université Paris Ouest - Nanterre La Défense.

Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Partage dans les Mêmes Conditions 3.0 France.