Chargement en cours

Synthèses rédigées par les étudiants du cours de Culture numérique

Diagramme de Gantt
Diagramme de Gantt

Le Data Journalisme

Danne Nicolas, Ducados Anne-Caroline, Raffegeau Kévin
Cet article propose un tour d'horizon succin du datajournalisme. Après avoir précisé sa définition, il sera présenté un historique ainsi que les apports et utilisations de cette nouvelle pratique journalistique.
(déposé le 2014-11-20 20:03:21)

DATAJOURNALISME

Introduction générale

Le data journalisme ou encore journalisme de données a fait son apparition dans le milieu journalistique depuis plusieurs années. « Nous vivons aujourd’hui dans un monde numérique, un monde dans lequel pratiquement tout peut être (et est de fait) décrit par des chiffres[1]». Nous utilisons les chiffres au quotidien pour quantifier mais surtout pour interpréter les différentes informations autour de nous telles que le taux de chômage, le nombre d’accidents ou de meurtres annuels, etc. Ces chiffres nous influence et guide notre interprétation car ils sont assimilés à des éléments qui leur donne sens car connu de tous consciemment ou inconsciemment. Mais alors, quel est le lien entre ces données et le journalisme ?

Aujourd’hui, les journalistes n’ont plus besoin d’être sur place pour collecter l’information. Grâce à l’évolution technologique, aux médias sociaux, une multitude de données venant du monde entier et de personnes différentes ; il est possible de collecter l’information plus facilement. Cette collecte est transmise sous forme de données chiffrées qu’il est nécessaire de traduire afin qu’elle soit comprise par les lecteurs. C’est ainsi qu’avec l’évolution numérique on voit apparaître une nouvelle forme de journalisme : le data journalisme qui permet de raconter une histoire complexe avec des illustrations claires.

Tout d’abord nous parlerons de ce qu’est le Datajournalisme, quels sont ses apports, son avenir possible, puis nous verrons de quelle façon sont retranscrites les données à travers la Data Visualisation.

Le Data Journalisme

Définitions

On parle de plus en plus de data journalisme mais sa définition reste encore flou pour beaucoup. Il existe plusieurs définition du Data journalisme  qui nous aide à mieux comprendre cette notion:

Le site web Hyblab nous apporte une définition plus générale de ce sujet : «  Si on synthétise, le datajournalisme, c’est une nouvelle forme de traitement de l’information où le journaliste part de données pour les transformer en une visualisation graphique attractive pour le lecteur[2]. »

Pour Sylvain Lapoix journaliste à Owni le data journalisme c’est : « La poursuite du journalisme par d’autres outils. Et un gros retour aux sources : la vérification, l’étude en profondeur d’un sujet et la compréhension de sa mécanique afin de restituer sous une forme pédagogique[3]. »

Pour Simon Rogers journaliste au The Guardian Datablog c’est : « Très simplement, c’est du journalisme de base, mais qui repose sur les nombres plutôt que les interviews.  En fin de compte, c’est le format le plus flexible dont le résultat peut s’exprimer avec des mots, des applications interactives ou des visualisations[4]. »

Histoire

Bien que l’on s’intéresse réellement au data journalisme depuis une dizaine d’années, Simon Rogers (journaliste au The Guardian) dans un article reprit par le site Owni montre que celui ci existe depuis le XIXème. « Le data journalisme existe depuis que des données existent, au moins depuis les fameux schémas et reportages de Florence Nightingale sur les conditions de vie des soldats britanniques en 1858[5]. ». La différence significative entre cette époque et aujourd’hui se base sur la numérisation. En effet, à cette époque pour avoir des informations il était essentiel d’obtenir des données papiers ce qui réduisait considérablement l’accès à l’information au plus grand nombre.

Vers les années 1950 se développe le Computer-assisted reporting, qui est l’utilisation d’ordinateurs pour rassembler et analyser les données nécessaires pour écrire de nouvelles histoires.

Un journaliste américain, Bill Dedman reçoit en 1989 le prix Pulitzer après la réalisation d’une étude statistique qui montre qu’à Atlanta les noirs obtiennent moins de crédits bancaires que les blancs.

Avec le développement de l’informatique, à partir des années 2000, on voit apparaître la démocratisation de l’accès aux bases de données ce qui engendre le développement du Data Journalisme.

En 2009, Simon Rogers journaliste pour The Guardian est en charge du « datablog » qui coordonne les travaux sur le Data Journalisme. The Guardian est un média britannique qui est le premier à se mettre au data journalisme. Même si le data journalisme existe depuis plusieurs années, l’étude de ce dernier est récente. C’est le pilier médiatique en terme de data journalisme. La création de leur blog : Datablog a suscité de vive réactions : «  Datablog, tout ça était nouveau. Les gens demandaient encore si raconter des histoires à partir de données relevait vraiment du journalisme […] [6]». Cependant, plusieurs affaires importantes telles que le scandale des dépenses des parlementaires[7] ont eu un rôle capital et ont contribué à « l’acceptation » du data journalisme.

La première conférence sur le Data Journalisme a eu lieu en Août 2010 à Amsterdam au European Journalism Centre qui a rassemblée plus d’une soixantaine de journalistes du monde entier.

En 2012 a été publié un manuel de journalisme de données : le Data Journalism Handbook.

« En 2012, deux journalistes du Seattle Times, Michael J. Berens et Ken Armstrong, sont récompensés du prix Pulitzer du journalisme d’investigation pour un travail relevant du journalisme de données montrant qu'un grand nombre de décès dans l'État de Washington était lié à une surdose de méthadone, anti-douleur prescrit aux bénéficiaires de Medicaid pour des raisons d'économie[8]. »

Aujourd’hui avec l’ère numérique il est beaucoup plus facile d’avoir accès aux statistiques. C’est pourquoi tout le monde peut faire du data journaliste car les statistiques nécessaire au Data journalisme ne sont plus l’apanage d’un public spécifique. Elles sont disponibles « en libre service » pour tout un chacun. Le data journalisme est donc une façon de traduire une histoire complexe à partir de graphiques clairs.

Les apports du Data Journalisme

     Le data journalisme, ou « journalisme de données » entend donner une nouvelle tournure au métier de journaliste par la mise à disposition de données statistiques, notamment institutionnelles, par leur exploitation et par leur analyse. Comme le Data Journalisme connaît une progression importante, il est déjà en phase de maturité dans certaines parties du monde et connaît un développement moindre dans d’autres. C’est dû à l’effet des langues (principalement l’anglais et l’espagnol qui utilise beaucoup le data journalisme). Pour les spécialistes de l’information, cette nouvelle forme d’investigation et d’exploitation de sources, promet de rendre compréhensibles les sujets compliqués et de révéler des informations qui n’auraient pu être publiées sans ce travail croisé de collecte et de traitement des données et du travail du journaliste à proprement parler. De nos jours, l’information est abondante, l’analyse est donc un processus très important. Celui-ci  est divisé en 2 parties:

•   L’analyse : Pour apporter du sens, car le flot d’information est sans fin.

•   La présentation: mise en forme pour apporter des informations claires aux lecteurs

À partir de quelques exemples, nous allons vous montrez les apports du Data Journalisme dans le monde d’aujourd’hui.

     L’un des principaux apports du data journalisme aujourd’hui résiderait dans sa capacité à faciliter la compréhension de l’information en rendant rapidement accessible des dossiers qui sont vus comme complexes à la base. Cette nouvelle forme de journalisme aurait en effet comme avantage de faciliter la compréhension, l’analyse et de mettre l’information dans le bon contexte.

     L’une des évolutions du Data Journalisme passe par l’infographie (On appelle infographie le domaine de l'informatique concernant la création et la manipulation des images numériques) qui est une de ses composantes. L’interactivité est la clé du succès pour une infographie. (Exemple de l’infographie sur le SuperBowl[9]) :

Sur l’exemple ci-dessous, vous pouvez choisir votre équipe favorite et analyser leurs matches. Vous pouvez analyser les statistiques défensives et offensives  (pertes de balles, interceptions, rush, etc.)

Infographie Super Bowl

Infographie Super Bowl

L'avenir du Data Journalisme

De nombreux secteurs d'activités ont aujourd'hui recours à la robotique pour suppléer l'humain. On retrouve ainsi la présence de ces automates dans le domaine industriel, médical, militaire ou encore spatial.

Le journalisme, avec la multiplication des données et leurs facilités d'accès, s'ouvre lui aussi à l'utilisation de robots.

En effet, dès 2010, deux professeurs américains, Larry Birnbaum et Kris Hammond, spécialistes d'intelligence artificielle ont créé Stats Monkey dont le développement fût confié à John Templon, journaliste et Nick Allen, informaticien[10].

Cet algorithme s'est initialement appliqué au base-ball et football américain, sports où les données quantitatives et qualitatives sont multiples. Reposant sur le système du Big Data, l'algorithme va ainsi interroger de nombreuses bases de données statistiques, occurrences sémantiques et enchaînements linguistiques propres à ces sports lui permettant in fine de construire, en direct, un résumé de match clair et crédible aux yeux des lecteurs.

La crédibilité aux yeux des lecteurs apparaît comme une condition sine quo non à la généralisation de l'utilisation de cette nouvelle technologie.

S'interrogeant sur la qualité du contenu des articles générés par ces « robots », Christer Clerwall, universitaire suédois en médias et communication a diligenté une enquête auprès de 46 étudiants[11]. Leur soumettant de manière anonyme deux résumés de match d'une rencontre de football américain, l'un rédigé par un journaliste sportif et l'autre par une intelligence artificielle, il a demandé à ses étudiants de qualifier le contenu de ces articles par un ensemble d'adjectifs proposés et de définir qui était l'auteur de chacun des deux résumés proposés.

Les conclusions de cette enquête tendent à démontrer la qualité et la crédibilité des articles générés par ces « robots ». Le Big Data contribue ainsi à réduire les écarts entre journaliste humain et intelligence artificielle en matière de finesse d'analyse.

étude comparative robot-journaliste

étude comparative robot-journaliste

Adjectifs choisis par les étudiants pour qualifier l'article.

Au delà de son application initiale au domaine du journalisme sportif, les algorithmes ont vu leurs champs d'applications s'élargir afin de se généraliser à la profession tout entière. Ainsi, aux Etats-Unis, un robot baptisé « News at seven » présente quotidiennement un journal télévisé[12]. Créé par trois chercheurs du Laboratoire d'information intelligente (infoLab), cet algorithme repose lui aussi sur l'utilisation du BigData. En effet, chaque matin, les chercheurs se contentent de lui fournir des mots clés relatifs à l'actualité du jour, charge au robot d'interroger la multitude de données disponibles sur internet et d'en extraire les contenus les plus cohérents.

       

News at Seven
News at Seven (Vidéo)

Vidéo

Journal télévisuel présenté quotidiennement par un robot nommé "News at Seven"
Licence : YouTube Standard Licence

En passant outre la concurrence, pour les journalistes humains, qu'instaure l’avènement des « journobots », ces derniers peuvent également se révéler précieux pour le journalisme traditionnel en réalisant les tâches « ingrates » du métier[13]. Ainsi, chez Associated Press, depuis juillet 2014, le bilan de certaines entreprises est rédigé par des robots. Comme l'explique le directeur de la publication, Lou Ferrara, « Je ne peux pas me permettre d'avoir des journalistes qui perdent du temps à répertorier des données. En revanche, j'ai besoin de plus de reportage ». Cette nouvelle répartition des rôles permet au journaliste humain de délaisser la rédaction des résultats d'entreprise, tâche pas franchement populaire, pour se concentrer sur l'analyse et l'enquête, tâches autrement plus valorisantes.

       Autre exemple de « robot » au service du journaliste humain avec la start-up française « Trooclick »[14]. Cette dernière propose un algorithme permettant de vérifier l'exactitude des faits, chiffres, données insérés au sein d'articles disponibles en ligne. Spécialisé dans le domaine de la finance, cet algorithme, que l'utilisateur doit télécharger, va analyser le contenu de l'article ouvert dans le navigateur, en extraire les données pertinentes et les comparer à celles fournies par des sites de référence tels que celui de la Securities and exchange Commission. Toute erreur est automatiquement signalée à l'utilisateur et ce dernier est invité à suivre un lien vers le document faisant référence.

La réactivité et la capacité à rédiger dans un laps temps très court dont font preuve les algorithmes permettent :

● La multiplication des articles

Pour reprendre le cas de Associated Press, l'utilisation de robots doit permettre au journal de multiplier par dix son nombre d'articles. Ainsi, l'objectif est d'atteindre 4400 articles par mois d'ici fin 2014 contre 300 en juillet dernier.

● Le traitement de l'info en temps réel

Le 17 mars dernier, Los Angeles est victime d'un tremblement de terre à 6h25[15]. Le Los Angeles Time disposant d'un algorithme connecté à la base de données de l'US Geological Survey (bureau géologique des États-Unis) publie un article détaillé sur le séisme dès 6h28. Ainsi, seulement trois minutes après les faits, la population est en mesure de prendre connaissance de l'ampleur du phénomène.

 ● L'anticipation des sujets d'actualité populaires

« Les médias sont entrés dans une phase de collaboration avec les algorithmes beaucoup moins passive. Les algorithmes permettent d’anticiper l’actualité qui va monter, ce qui donne l’occasion aux médias de reprendre la main plutôt que de courir après une information qui les dépasse »[16]. Ces propos sont ceux de Nicolas Becquet, journaliste et éditorialiste au journal l'écho. Cette idée est parfaitement illustrée par le site d'information Melty qui utilise un algorithme lui permettant de ressortir les actualités tendances sur les réseaux sociaux et ainsi construire une ligne éditoriale en conséquence. Avec une croissance annuelle de 93%, le site créé en 2008 est une véritable réussite.

Comme le montre ces diverses illustrations, la multiplication des données et leurs traitements par différentes formes d'intelligences artificielles génèrent un ensemble d’aspects positifs qui tendent à démontrer la légitimité  du processus de croissance de ces avancées technologiques.  

Retranscription des données : La Data Visualisation

Qu’est-ce que la Data visualisation

Définition

DataViz ou encore Visualisation de données est : « l’ensemble des techniques de représentation graphique et d’exploration visuelle de données quantitatives permettant de traduire un ensemble de données brutes en information décisive[17] »

Description[18]

Un des principaux objectifs de la visualisation des données est de communiquer l'information clairement et efficacement aux utilisateurs via la schématisation des informations sélectionnées, tels que des tableaux et des graphiques. Une visualisation effective permet aux utilisateurs d’analyser les données et en tirer un raisonnement. C’est moyen d’avoir accès plus facilement aux données complexes, de les comprendre, de les interpréter et de les utiliser.

L’utilisation des données permet de faire des comparaisons ou de comprendre des causes qui seront interprétées sous forme de graphiques ou de tableaux. Les tableaux sont généralement utilisés lorsque les utilisateurs se tournent vers une mesure spécifique d'une variable, alors que les cartes de différents types sont utilisées pour montrer des modèles ou des relations dans les données pour une ou plusieurs variables.

Le nombre de données s’est tellement multiplié depuis plusieurs années qu’il devient difficile de les traiter en utilisant des systèmes de traitements de données classiques ; ces nombreuses données complexes sont qualifiées de « Big Data ».

La data visualisation permet à travers des graphiques ou tableaux clairs et esthétiquement attrayant de transmettre une information de façon claire et compréhensible par les utilisateurs.

Selon Friedman (2008) : « l’objectif principal de la data visualisation est de communiquer l’information clairement et efficacement à travers des moyens graphiques. Cela ne signifie pas que la data visualisation a besoin d’être visuellement ennuyeuse pour être fonctionnelle ou extrêmement sophistiqués pour être belle. Pour transmettre efficacement des idées, le côté esthétique et le côté fonctionnel doivent marcher de paire, donnant un aperçu d’ensemble de données assez rares et complexes en communiquant ses aspects-clés de façon plus intuitive. Pourtant, les concepteurs/designers ne parviennent souvent pas à atteindre un équilibre entre forme et fonction, en créant de magnifiques visualisations de données qui ne parviennent pas à servir leur but principal - de communiquer des informations[19] ».

 Caractéristiques

Les graphiques et les tableaux représentants les datas doivent être clairs et compréhensibles. Dans son livre « The Visual Display of Quantitative Information » publié en 1983 Edward Tufte considère que des graphiques efficaces sont des graphiques qui retranscrivent une information complexe en des graphiques clairs. Selon lui l’affichage graphique devrait[20] :

·   Montrer les données/datas

·   conduire le spectateur à réfléchir sur le fond plutôt que sur la méthodologie, la conception graphique, la technologie de la production graphique ou autre chose

·   éviter de fausser ce que les données ont à dire

·   présenter de nombreux numéros dans un petit espace

·   faire en sorte que de larges données soient cohérentes

·   encourager l'œil à comparer les différents éléments de données

·   révéler les données à plusieurs niveaux de détail, à partir d'un large aperçu à une structure fine

·   servir un but raisonnablement clair: description, l'exploration, la totalisation ou de décoration

·   être étroitement intégré avec les descriptions statistiques et verbales d'un ensemble de données.

Terminologie

Stephen Few définit deux types de données, qui sont utilisés en combinaison pour soutenir une analyse significative ou la visualisation:

1.    Catégorique : les étiquettes de texte décrivant la nature des données, telles que «Nom» ou «âge». Ce terme couvre également les données qualitatives (non numérique).

2.     Quantitative: mesures numériques, tels que les «25» pour représenter l'âge en années.

Une table contient des données quantitatives organisées en lignes et en colonnes avec des étiquettes catégoriques. Elle est principalement utilisée pour rechercher des valeurs spécifiques.

Un graphique est principalement utilisé pour montrer les relations entre les données et dépeint des valeurs codées comme des objets visuels (par exemple, des lignes, des barres ou des points). Les valeurs numériques sont affichées dans une zone délimitée par un ou plusieurs axes. Ces axes permettent des échelles (quantitatives et qualitatives) utilisés pour étiqueter et attribuer des valeurs aux objets visuels.

Exemple de Data Visualisation

Il existe plusieurs façons de traduire les données, soit sous forme de tableau, soit sous forme de graphique. Chacun d’entre eux pouvant être interprété différemment en fonction des informations qui y figurent. Les graphiques ou tableaux ont des représentations visuelles différentes

  • Network/Réseau :

Taille des nœuds / Couleur des noeuds / Épaisseur des liens / Couleur des liens / Spatialisation

Network / Réseau

Network / Réseau

Taille des noeuds / Couleur des noeuds / Epaisseur des liens / Couleur des liens / Spatialisation
Inconnu
Licence : Licence inconnue -- D.R.

  • Graphique à barres :

Longueur / Couleur / Temps

Graphique à barres

Graphique à barres

Licence : Licence inconnue -- D.R.

  • Streamgraph

Largeur / Couleur / Temps (flux)

Streamgraph

Streamgraph

Largeur / Couleur / Temps (flux)
Inconnu
Licence : Licence inconnue -- D.R.

  • Treemap

Taille / Couleur

Treemap

Treemap

Taille / Couleur
Inconnu
Licence : Licence inconnue -- D.R.

  • Diagramme de Gantt

Couleur / Temps (flux)

Diagramme de Gantt

Diagramme de Gantt

Inconnu
Licence : Licence inconnue -- D.R.

  • Nuage de points (3D)

Position x / Position y / Position z / Couleur

Nuage de points

Nuage de points

Conclusion

Le Datajournalisme fait, aujourd’hui, parti intégrante du milieu journalistique. Ainsi, de plus en plus d’acteurs de cette branche d’activité utilisent cet aspect du journalisme afin de donner du sens aux multitudes de données qui existent aujourd’hui. Bien que son utilisation ne soit pas nouvelle, on constate un intérêt grandissant pour la pratique lié à l'expansion du numérique. De fait, s’épancher sur le sujet du Datajournalisme apparaît comme essentiel afin de permettre aux consommateurs médias de comprendre les mécanismes et systèmes de transmission de l’information via des données statistiques.

Cette évolution a notamment permis de déléguer certaines tâches journalistiques à une intelligence artificielle capable d’analyser et de traiter une multitude de données dans un délai très court afin d’en extraire une information,satisfaisant les attentes du lecteur.

Cependant, les nombreux aspects positifs, énoncés en amont, générés par l’essor du Datajournalisme ne doivent pas faire occulter les craintes et interrogations qui accompagnent la croissance d’une telle pratique. Ainsi, comme le souligne Evgeny Morozov, journaliste et auteur de l’ouvrage “The Net Delusion”: ”Toujours plus d’actualité uniquement régie par le diktat des algorithmes ne conduit-il pas à un enfermement intellectuel où l’on ne finira par ne plus lire autre chose que des contenus qui sonnent agréablement à nos convictions et nos opinions ?” [21]

Bibliographie

[1] The Guardian, Guide du datajournalsime, Paul Bradshaw
http://jplusplus.github.io/guide-du-datajournalisme/pages/0201.html
(consulté le 31/10/14)

[2] Hyblab, Datajournalisme,
http://www.hyblab.fr/datajournalisme (Consulté le 15/10/14)

[3] Data publica, 
http://www.data-publica.com/content/2012/11/5-questions-a-6-datajournalistes/ (consulté le 15/10/14)

[4] Ibid., data-publica (consulté le 15/10/14)

[5] Owni, Simon Rogers, 2 ans de Datajournalisme vus par le Guardian,
http://owni.fr/2011/07/29/2-ans-de-datajournalisme-vus-par-le-guardian/ (consulté le 15/10/14)

[6] Ibid., Owni, Simon Rogers (consulté le 15/10/14)

[7]The Guardian, Datablog,
http://www.theguardian.com/news/datablog/2014/sep/12/are-uk-mps-really-claiming-more-expenses-now-than-before-the-scandal (consulté le 01/11/14)

[8]Wikipédia, Journalisme de données,
http://fr.wikipedia.org/wiki/Journalisme_de_donn%C3%A9es (consulté le 01/11/14)

[9]Data Journalism Blog, Infographics in sport: an interactive guide to Super Bowl history, John-Burn-Murdoch,
http://www.datajournalismblog.com/2012/02/13/infographics-in-sport-an-interactive-guide-to-super-bowl-history/ (consulté le 15/10/14)

[10] Le Monde.fr, L'ère des robots-journalistes, Yves Eudes,
http://www.lemonde.fr/actualite-medias/article/2010/03/09/l-ere-des-robots-journalistes_1316608_3236.html (consulté le 4/10/14)

[11] Le blog du communicant, Journalisme et Algorithme: Laurent Delahousse est-il condamné à être condamné par un robot? Olivier Cimelière,
http://www.leblogducommunicant2-0.com/2014/07/26/journalisme-algorithme-laurent-delahousse-est-il-condamne-a-etre-remplace-par-un-robot/ (consulté le 18/10/14)

[12] Ibid le blog du communicant (consulté le 18/10/14)

[13] Le Monde.fr, Chez "Associated Press", le robot repère et le journaliste analyse, Elian Peltier,
http://www.lemonde.fr/actualite-medias/article/2014/07/22/les-journobots-d-associated-press_4461246_3236.html (consulté le 22/10/14)

[14] Le Monde.fr, Yves Eudes, Un robot pour contrôler la qualité du travail du journaliste,
http://www.lemonde.fr/pixels/article/2014/06/26/un-robot-pour-controler-la-qualite-du-travail-des-journalistes_4446072_4408996.html (consulté le 24/10/14)

[15] Ibid le blog du communicant, (consulté le 18/10/14)

[16] Ibid le blog du communicant, (consulté le 18/10/14)

[17] Databusiness.fr, Dataviz : Enjeux, Applications, Exemples
http://www.data-business.fr/dataviz-visualisation-donnees/ (consulté le 20/11/14) 

[18]Wikipédia, Data Visualisation,
 http://en.wikipedia.org/wiki/Data_visualization (consulté le 20/11/14) 

[19]Ibid., Wikipédia, Dta Visualisation (consulté le 20/11/14)

[20] Idib., Wikipédia, Data Visualisation (consulté le 20/11/14)

[21]Ibid., le blog du communicant, (consulté le 18/10/14)

 
 

Notes de lecture