IUT Lannion - LPJ Web

Datajournalisme en pratique

Laurence Dierickx 2020-2021

Introduction

Les pratiques du datajournalisme se fondent sur le principe de raconter une bonne histoire en s'appuyant sur des données en tant que matériel de base à l'information. Qu'il s'agisse de récolter, analyser ou traiter des jeux de données, la démarche fondamentale reste celle de n'importe quelle autre forme de journalisme. Mais les pratiques du datajournalisme requièrent aussi la maîtrise d'outils et de techniques spécifiques. Ce cours a pour objet (1) de replacer le datajournalisme dans le contexte de son développement, (2) de présenter les différentes formes du datajournalisme, (3) d'aborder ses enjeux professionnels, (4) de fournir des outils et techniques opérationnels.


Définition: journalisme s'appuyant sur des données, qui combine des techniques journalistes de base avec des outils actuels ; processus de reportage de faits d'actualités en utilisant des données structurées comme colonne vertébrale du récit ; récit basé sur l'analyse des données et la présentation de cette analyse (Coddington, 2014).

Table des matières


Aperçu historique

Histoire du datajournalisme

Voir les pages 6 à 30 du syllabus.


Pratiques professionnelles


Voir les pages 31 à 40 + 47 à 69 du syllabus.


Enjeux professionnels

  • Nouvelles collaborations (journalistes + développeurs / data scientists)
  • Données : source, qualité, fiabilité, précision (voir Guide Quartz)
  • Mythe de l'objectivation chiffrée (Desrosières, 2008)
  • Assurer la pérennité du projet et des données (voir un billet de Maelle Fouquenet)
  • Bonnes pratiques
    • Droit d'accès aux données pubiques, droits d'auteur
    • Source des données : fiabilité des données
    • Qualité des données : exactitude, précision des données
    • Standardisation : commune mesure = normaliser (préparer les données)
    • Analyse : observer les phénomènes, poser les bonnes questions, éviter les biais et généralisations abusives (statistiques : échantillon, marge d'erreur,...)
    • Visualisation : quelle représentation, pertinence dans le récit

Voir les pages 40 à 46 du syllabus.


Méthode

  • Rechercher et collecter les données : existantes (open data, sites officiels...) ou bases de données créées par le journaliste (plus forte valeur ajoutée)
  • Vérifier les données récoltées (fiabilité, précision)
  • Nettoyer le(s) jeu(x) de données
  • Contextualiser et analyser les données
  • Visualisation (analyse)
  • Traitement journalistique

Angler son récit
  • Recherche de données comme source complémentaire (angle déjà défini)
  • Angler son récit en fonction de l'analyse de données, pistes :
    • A quel point le problème est important ?
    • Qu'est-ce qui change ?
    • Quelle est la meilleure performance observée ? La moins bonne ?
    • Comment les valeurs sont distribuées ?
    • Quelle exploration de données possibles ?
    • Quelles sont les relations entre les données ?
    • Puis-je y confronter d'autres jeux de données pour faire émerger de nouveaux constats ?
  • Lire aussi le billet de Paul Bradshaw

Voir les pages 70 à 126 du syllabus.

Slides

Slides de la semaine de spécialisation


Cliquer sur la flèche >> dans le coin supérieur droit du lecteur pour télécharger le PDF

Etudes de cas

Si le journalisme de données peut être une pratique transversale susceptible d'être intégrée dans n'importe quel type d'article comportant des informations chiffrées, il peut aussi donner lieu à des longs formats documentés où les données vont piloter le récit.


Une femme tous les trois jours (AFP)

AFP

Lien

Cette enquête long format a pour objectif d'expliquer la réalité humaine qui se cache derrière les données du féminicide en France. Plutôt que de donner une valeur absolue sur une année, le titre "Une femme tous les trois jours" ramène les données sur une échelle de temps qui fait sens mais qui a aussi plus d'impact. Le récit fait la part belle aux textes et aux témoignages vidéo. Les visualisations de données sont utilisées pour contextualiser la problématique, tout en gardant l'angle d'humaniser les chiffres. Cette enquête a mobilisé pas moins de 69 journalistes qui ont vérifié toutes les données présentées dans ce long format. La méthodologie de collecte des données s'appuie sur le nombre de cas recensés dans la presse locale par le collectif "Féminicides par compagnon ou ex", et des données officielles dont la publication a lieu longtemps après les faits. Pour chaque cas comptabilisé, les journalistes ont contacté les services de police et gendarmerie, magistrats, avocats, maires ou proches des auteurs et victimes. Il leur ont demandé une série de renseignements sur les victimes (nom, âge, profession...). Par ailleurs, plusieurs cas n'ont pas été retenus, faute d'avoir pu établir que les victimes avaient bien fait l'objet de violences.


AFP

How the Virus Got Out (The New York Times)

The New York Times

Lien

Ce long format data interroge la manière dont le covid-19 s'est propagé dans le monde depuis la Chine. Ici, les données sont mises en valeur dans une succession de visualisations, contextualisées par des textes courts. Le postulat de ce récit est le suivant : si l'on arrête de voyager, le virus ne se propagera pas. L'analyse des données va démontrer que cette hypothèse n'est pas aussi simple à vérifier. Les données sur lesquelles s'appuient ce récit, qui s'articule sur un mode chronologique, sont celles de plateformes de voyage en Chine, et des données de deux opérateurs de télécommunication en Chine (qui ont tracké les mouvements des téléphones mobiles). Le nombre de cas reportés a été collecté de différentes manières : les données officielles chinoises, l'Organisation mondiale de la santé et l'Université John Hopkins qui travaille sur un monitoring de la pandémie mondiale depuis que celle-ci a été déclarée. Ici aussi, la méthodologie d'enquête est détaillée au bas de l'article.


The New York Times

Brussels, a lovely melting-pot (projet freelance)

Brussels, a lovely melting-pot

Lien

Dans ce long format uniquement centré sur les données, la diversité de la région bruxelloise (184 nationalités) est présentée à travers des données accessibles en open data (World migration report, Institut de statistiques bruxellois). Les visualisations sont accompagnées de très courts textes d'introduction/contextualisation.


Brussels, a lovely melting-pot

Introduction à Open Refine

Téléchargement

Comme pour Tabula, Open Refine s'ouvre dans un navigateur web.


Rappel : guide Quartz de la qualité des données

Manipulations de base

  • Importer un fichier
  • Régler l'encodage avant l'import
  • Organisation, tri et nettoyage des données
  • Ajuster l’affichage des colonnes
  • Editer une colonne
  • Editer le contenu d’une cellule
  • Type de données d’une cellule
  • Editer les cellules d’une colonne
  • Filtrer les données
  • Trier les données
  • Rechercher-remplacer
  • Stars et flags

Fichiers pour l'exercice : Covid-19 (Sciensano) (fichiers du nombre de tests en json + fichier cas âge/sexe csv)

  • Choisir la première série entre parenthèses pour définir le tableau (json) ou vérifier l'encodage UTF8 (csv)
  • Facet : texte, numérique, texte personnalisé, custom (doublons, valeurs nulles, valeurs vides)
  • Ex. isoler les valeurs de septembre => value.contains('-09-')
  • Text filter : filtrer un texte
  • Edit cell : rechercher-remplacer
  • Edit column : supprimer, renommer, déplacer
  • Sort : tri selon le type de valeur (texte, numérique), croissant ou décroissant
  • View : masquer une colonne
  • Flags, stars : facet by (renvoie true ou false)

Références

OpenRefine.org

VERBORGH, Ruben et DE WILDE, Max. Using OpenRefine. Packt Publishing Ltd, 2013.


Introduction à R Studio

R est un environnement de programmation dédié à l’analyse de données. Ce "starter guide" passe en revue ses fondamentaux.


A. Manipulations de base

B. Analyse des données

dplyr est une extension pour la manipulation de données, tandis que ggplot2 est dédié à la datavisualisation. Les codes ci-dessous reprennent leurs fonctionnalités de base.


ggplot2 est la librairie qui va permettre de réaliser des visualisations de données.

Bonus. Snippet pour générer un tableau interactif

Ressources

Exercices pratiques

1. Extraire un tableau d'un PDF avec Tabula

Baromètre social 2019 (Bruxelles)

Extraire de la page 24 le tableau 3.1 (seuil de risque de pauvreté)

  • Lancer Tabula (le logiciel s'ouvre dans un navigateur web)
  • Importer le fichier PDF
  • Sélectionner la page et le tableau à exporter
  • Prévisualiser et exporter le tableau

2. Ouvrir et nettoyer le tableau CSV dans Excel

  • Sélectionner la première colonne, cliquer sur l'onglet "Données" / "Convertir"
  • Dans le panneau "Assistant de conversion", cocher "Délimité"
  • Cocher la case "virgule"
  • => l'encodage est mauvais (plus d'accents)

Solution 1 :

  • Ouvrir un nouveau fichier
  • Dans "Données", cliquer sur Importer des données / "A partir d'un fichier CSV"
  • Sélectionner "Unicode UTF-8"
  • Tableau ok en prévisualisation
  • Cliquer sur "Fermer et charger"

Solution 2 :

  • Editer le fichier CSV dans un éditeur de texte (Brackets ou Notepad ++)
  • Sélectionner le texte et cliquer sur "Encodage" / "Convertir en UTF8 BOM"
  • Enregistrer
  • Ouvrir le fichier dans Excel et convertir les données

Nettoyage du fichier :

  • Dans Excel : supprimer les lignes inutiles et renommer les colonnes, supprimer le sigle euros (rechercher/remplacer), format de données en nombres
  • Je veux conserver les isolés : transposer dans une nouvelle feuille
  • Prévisualisation : graphique en barres

Croiser les données avec les revenus médians et moyens du travail

Ici Les données donnent un salaire brut. Il faut le convertir en net : cela dépend de l'ancienneté, du statut... Recherche sur le statut d'employé célibataire : 3709,00 euros bruts = 2303,64 nets

Pour aller plus loin suivant l'hypothèse que les personnes isolées sont de plus en plus précaires, je peux recueillir des données sur le nombre de personnes isolées en Belgique (et par région si je veux être plus granulaire), le nombre de personnes bénéficiant d'un revenu de remplacement, le nombre de personnes au travail (temps-plein et temps partiel)... Je vais regarder dans tout ça la proportion d'hommes et de femmes. C'est l'accumulation de données qui me donnera des pistes sur la réponse à apporter à mon hypothèse, mais cela ne sera pas suffisant. Je vais me documenter (articles scientifiques, rapports, publications...). Je confronterai aussi cela avec des experts et avec du terrain (témoignage de travailleurs/euses isolés/ées). Bref, petite question... mais travail de longue haleine ! Deux pièges à éviter : généralisation abusives et corrélations hasardeuses (à mettre en perspective avec un/e expert/e).

3. Scraper des données sur le web

  • Dans de nombreux cas, un copier-coller suffira
  • Parfois, un logiciel sera nécessaire, ici OUtwit Hub (attention : limite de la version gratuite à 100 lignes)

Exemple : récupérer les données de cette page web
  • Ouvrir Outwit et coller l'adresse dans la barre de recherche
  • Cliquer sur "Table" dans la colonne de droite
  • Visualiser puis cliquer sur la prévisualisation (onglet à droite du tableau / CSV virgule) puis sur "Exporter"

Outils pour la cartographie

L'outil Google My Map permet de créer une carte avec des marqueurs contextuels. L'exigence est de disposer d'un tableau 'Excel, Google Spreadheet, Open Office) organisé en colonnes : voir ici un exemple de carte + de jeu de données. Ici, il n'est pas utile d'introduire des données de géolocalisation car Google va "comprendre" (en principe) les lieux indiqués.

Il est également possible de créer des cartes avec Datawrapper. Le système est assez intuitif et il suffit de formater son tableau de données en fonction des exigences de DW. Le géocodage proposé est de deux types : nom, code ISO du pays ou NIS-Code (attention, ce n'est pas le code postal).

Enfin, Flourish propose également des outils de cartographie. Des fonds de carte sont proposés mais ils ne sont pas exhaustifs. Pour travailler sur la Belgique, par exemple, il faudra disposer d'un fond de carte (projection) géocodé au format GeoJSON + d'un fichier tabulaire reprenant les infomations qui doivent apparaître sur la carte avec les données de géolocalisation.




Voir ici une liste d'outils avancés

Outil pour l'analyse du discours : Iramuteq

Télécharger le logiciel

Procédure

  • Exercice : déclaration gouvernementale d'Alexander De Croo
  • Copier-coller le texte dans un fichier .txt
  • Avant le texte, ajouter : **** *var1_mod1 *var2_mod3
  • Ouvrir Iramuteq, "Ouvrir un corpus textuel" (encodage UTF8)
  • Créer un nuage de mots clés (le traitement peut prendre un peu de temps
  • Créer un arbre de similitudes : connection et distance entre les termes (théorie des graphs)

Outils pour l'analyse du discours (R)

Bibliothèques JavaScript

Dataviz avec Highcharts.js : Lien

DataTable : Lien

Carte avec LeafletMap.js : Lien

Carte choroplèthe avec Highmaps.js : Lien

JExcel : Lien

Base HTML Boilerplate : Lien

Quiz

Testez vos connaissances en répondant par "vrai" ou "faux" aux affirmations suivantes.

  •   Vrai     Faux  

    Du journalisme avant tout !

    Les pratiques du datajournalisme sont protéiformes mais elles suivent un processus qui n'est pas différent des autres formes de journalisme. La récolte et l'analyse de données peuvent être envisagées de différentes manière, en fonction de ses compétences. Et il est tout à fait possible de se lancer dans un travail piloté par des données sans aucune maîtrise d'un langage de programmation : Workbench data a, par exemple, été développé dans cette perspective. De plus, l'interactivité que permettent les formats numériques peut être envisagée de plusieurs manières : en utilisant des outils prêts à l'emploi ou en travaillant avec un développeur. Mais dans tous les cas, il s'agit de raconter une bonne histoire qui réponde aux standards journalistiques. La finalité reste celle d'informer.
  •   Vrai     Faux  

    Respecter le droit d'auteur

    Ce n'est pas parce qu'une ressource est disponible en ligne que l'on a le droit de la reproduire, et cela est vrai pour tous les types de contenus. La structure originale d’une base de données, de même que les contenus d’une base de données, sont protégés par le droit d’auteur. Avant toute chose, il faut donc vous assurer que vous disposez du droit d'utiliser les données (le jeu de données dispose-t-il d'une licence ouverte ?). Par ailleurs, les jeux de données publiés en open data disposent toujours d'une licence ouverte mais, dans certains cas, des conditions d'utilisations seront imposées (par exemple, la mention de la source).
  •   Vrai     Faux  

    Une promesse pas toujours tenue

    Ce n'est pas parce qu'elles sont disponibles en open data que les données seront fiables, précises et à jour. Si les administrations publiques fournissent bel et bien leurs données, celles-ci ne seront pas toujours disponibles dans un format ouvert, pas plus qu'elles seront toujours utilisables ou pertinentes à exploiter dans un contexte journalistique. De plus, les journalistes sont rarement pris en compte dans le cadre des politiques d'ouverture des données. Toutefois, lorsque la production de données est la mission principale du producteur, celles-ci seront considérées comme plus fiables et exploitables (Eurostat, instituts nationaux de statistiques, ...).
  •   Vrai     Faux  

    Des problèmes à portée de main

    La plupart des problèmes liés à la qualité des données peuvent être résolus en faisant appel au producteur de données (source) en ce qui concerne les aspects liés aux valeurs manquantes, aux lignes dupliquées ou aux étiquetages (noms des colonnes embigus), mais ils peuvent l'être aussi directement par vous même (par exemple, pour les problèmes liés à l'encodage ou à des conversions d'un format PDF en tableur). Dans de rares cas, il vous faudra faire appel à un expert pour vous éclairer sur des valeurs aberrantes (par exemple, un taux d'ozone très élevé en hiver) ou la fiabilité de la source des données. N'hésitez pas à consulter le guide Quartz pour résoudre les problèmes liés à la qualité des données.
  •   Vrai     Faux  

    Une "réalité" en mouvement

    Aucune activité d'analyse ne peut être considérée comme objective, dès lors qu'elle implique un travail d'interprétation. De plus, les données ne sont pas figées une fois pour toutes dans le temps. L'exemple des données relatives à l'épidémie de coronavirus illustre bien ceci : le nombre de cas enregistrés quotidiennement est susceptible d'être revu à la hausse ou à la baisse quelques jours plus tard. Le nombre de cas détectés dans une ville peut être le plus important en valeur absolue mais peut très bien être de moindre importance en calculant le taux par 100.000 habitants. De plus, les concepts peuvent également évoluer dans le temps : un seuil d'alerte de 50 cas pour 1.000 peut arbitrairement être ramené à 60 ou à 40, ce qui va modifier la manière d'interpréter les données. Pour bien comprendre un domaine d'application et poser les questions les plus pertinentes, il est recommandé de faire appel à un expert.
  •   Vrai     Faux  

    Viser la fin, pas les moyens

    Le choix d'un outil va dépendre de vos compétences mais aussi de la manière dont vous l'appréhendez. Vous pouvez très bien nettoyer vos données avec Workbench data (qui est l'outil le plus accessible), directement dans un tableur ou en utilisant des outils utilisés par les professionnels des données comme Open Refine ou R Studio. Il en va de même pour la visualisation des données, l'outil que vous choisirez sera mis au service de votre récit : peu importe que vous utilisiez un outil très simple ou un outil très compliqué. Mais il est aussi un fait qu'en gagnant en compétences, on gagne en temps et en efficacité.
  •   Vrai     Faux  

    Choisir la visualisation la plus appropriée

    Le graphique en courbes est la visualisation la plus appropriée pour suivre l'évolution de valeurs dans le temps, tandis que le graphique en points sera très utile pour dégager des tendances lors d'une analyse de données, et que le graphique en barres sera utilisé pour comparer des variables quantitatives. Le choix d'un graphique va toujours dépendre des variables et de leurs valeurs. En cas de doute, n'hésitez pas à consulter le Dataviz Catalogue, qui propose également une liste d'outils pour réaliser la visualisation de votre choix.
  •   Vrai     Faux  

    Peur des chiffres, vraiment ?

    Si les journalistes (et les étudiants en journalisme) éprouvent souvent peu d'appétence pour les chiffres et les mathématiques, la pratique du journalisme de données nécessite pourtant un retour aux fondamentaux. Pas de panique ! Les opérations de base (calcul de pourcentage, moyennes, médianes) doivent surtout être comprises pour être réalisées par la machine : dans un tableur (Excel, Google Spreasheet, Open Office...), il existe quantité d'opérations possibles sans devoir faire (trop) travailler ses méninges. Il est aussi un fait que, dans la plupart des cas, les jeux de données concerneront davantage des valeurs chiffrées. A noter que les opérations mathématiques et statistiques de base se trouvent pages 71 à 74 du syllabus, et celles-ci peuvent suffire pour un travail d'analyse de données.
  •   Vrai     Faux  

    Tous les formats de fichiers peuvent être convertis

    Un tableau dans un fichier PDF peut être converti en une feuille de calcul avec Tabula. Un fichier XLS (format propriétaire, Microsoft) peut être facilement enregistré au format CSV (couteau suisse du format ouvert, lisible par des humains et par des machines), et un fichier JSON (lisible par des machines) peut être converti de plusieurs manières : via Open Refine (à condition de connaître le logiciel), via R Studio qui permet l'importation de fichiers JSON (package rjson), ou plus facilement via un convertisseur en ligne (la requête magique : "convert JSON to CSV"). Il est également possible d'importer des données JSON dans une feuille de calcul Google : le mode d'emploi se trouve ici.
  •   Vrai     Faux  

    Conserver une copie, au cas où

    Gérer ses données devient une nécessité lorsque l’on collectionne les jeux de données et que ceux-ci sont sujets à diverses transformations. Une bonne gestion permet de retrouver ses données facilement (et de ne pas les égarer). Elle permet aussi de revenir à la version originale du fichier, lorsque celui-ci a fait l'objet de manipulations.