CAJOLE
Corpus pour l’Analyse de la qualité du
JOurnaLisme d’Exploration des données
Avec
CORIA-TALN-RJC 2018,
15 mai, IRISA Rennes
Si le journalisme des données (data journalisme) est présent dans la
plupart des grands médias, du fait de la multiplication des sources de données
électroniques disponibles, il est actuellement difficile d’évaluer
automatiquement à quel point les analyses faites, et les textes produits, en
explorant les données sont de bonne qualité. Afin de réfléchir à l’évaluation
automatique des articles issus du journalisme des données, il est essentiel de
définir un référentiel des compétences nécessaires à ce métier, permettant
ensuite la définition d’indicateurs de qualité. L’objectif de l’atelier est
donc de préparer l’élaboration de ce référentiel, en constituant un corpus de
référence autour de l’activité et des bonnes pratiques du data journaliste.
Cet atelier vise à rassembler différents acteurs : journalistes, chercheurs
en RI, TAL, science de l’information ou gestion de connaissances, spécialistes
de données ouvertes, spécialistes de l’analyse de données, ou encore lecteurs,
autour de l’élaboration d’un corpus permettant d’étudier la qualité du
journalisme de données. Ces échanges auront pour but premier de mieux cerner
les bonnes pratiques du journalisme des données : quelle méthodologie de
travail, quelles sources de données, quels prétraitements, quels traitements et
quel parallèle avec la science des données. Cet atelier s'inspirera du modèle
des TREC Tracks dans lesquels les premières
rencontres ont pour vocation de mettre en place les infrastructures nécessaires
en termes de collections de données et méthodologie d'évaluation. L'objectif de l'atelier est de constituer
un premier corpus de référence, comprenant des articles de presse issus du
journalisme des données, annotés et accompagnés de leurs sources de données,
ainsi qu'une grille d'évaluation portant sur les compétences en journalisme des
données.
Cet atelier se déroulera sur une journée et prendra la forme de
présentations invitées, d’une session de travail sur un corpus et une grille
d’évaluation de compétences, suivies d’une table ronde.
Heures |
Programme |
thème |
Session 1
: Présentations |
||
9h30-10h |
Marie Chagnoux |
Numérique
et mutation des pratiques journalistiques |
10h-10h30 |
Sylvain Lapoix |
Exemples d'applications
mettant en lumière les bonnes pratiques |
Session 2
: Présentations |
||
10h45-11h30 |
Veronika Peralta |
Qualité
des données, qualité d'une analyse exploratoire en ligne |
Nicolas Labroche |
Data
science & more |
|
11h30-12h |
Eric SanJuan |
Des corpus
de journalisme de qualité qui améliorent l'exploration des données |
12h-14h |
Pause
déjeuner |
|
Session
3 : Travail sur un corpus et une grille d’évaluation de compétences |
||
14h-16h |
Présentation
du corpus et de la grille |
|
Travail
par groupe mixte (datascientist/journalist) |
||
Documentation
des process |
||
Session
4 : Table ronde |
||
16h-17h |
Discussion
sur la grille et recherche de consensus, perspectives |
L’événement est ouvert à
tous (journalistes, chercheurs en RI, TAL, science de l’information ou gestion
de connaissances, spécialistes de données ouvertes, spécialistes de l’analyse
de données, etc.).
L'inscription à
l'atelier est gratuite mais obligatoire, en renseignant le formulaire suivant :
https://goo.gl/forms/yrNSH22HMAuPGAYz2
Merci à chaque
participant d'amener un ordinateur portable pour la session 3 (travail sur le
corpus).
Julien Aligon, IRIT
Romain Badouard, AGORA
Marie Chagnoux, CREM
Nicolas Labroche, LI
Patrick Marcel, LI
Veronika Peralta, LI
Chantal Soulé-Dupuy,
IRIT
Nicolas.Labroche@univ-tours.fr, Patrick.Marcel@univ-tours.fr