net et news

Illusions et malentendus sur le journalisme de données

De passage à la conférence Lift10, ces derniers jours à Marseille, j’ai encore beaucoup entendu parler de la question de l’ouverture des données publiques (cf. le programme). Le thème soulève l’enthousiasme de certains journalistes, qui y voient une formidable opportunité pour le journalisme, mais j’ai bien peur, une fois encore, que ce ne soit sur la base d’un malentendu et d’un certain oubli de l’histoire de la presse. Je redoute que cet enthousiasme soit très excessif et qu’il témoigne de quelques illusions…

 Original Database par shindohd (cc)
Original Database par shindohd (cc)

L’enjeu politique de l’ouverture des données publiques est certes important pour rénover une démocratie représentative dont le gouvernement et les administrations seraient plus ouverts et transparents envers le public. En accroissant les possibilités d’information, et donc de contrôle des citoyens, sur l’action de ceux qui gouvernent “au nom du peuple”, on peut envisager, peut-être (mais ça reste à démontrer par la pratique), de contribuer à restaurer la confiance entre dirigeants et dirigés, et d’accroitre, en quelques sortes, le consentement du peuple à être dirigé. Il s’agit bien de ça, non ? B-)

Mais qu’est-ce qui dit que cet enjeu serait une réelle opportunité pour la rénovation du journalisme ? Qu’est-ce qui permet de dire que les journalistes seraient bien placés pour jouer un rôle décisif dans cette entreprise ?

Je ne suis en effet pas loin de voir dans cet enthousiasme récent de certains journalistes pour la vertu des données une illustration renouvelée tout à la fois de la persistance de cette illusion de “la vérité des chiffres”, et d’une surestimation de la compétence des journalistes à manipuler en toute sécurité une matière éminemment dangereuse.

L’extraction d’information d’une masse de données brutes stockées dans une base de données est en effet une opération extrêmement délicate, qui recèle bien des pièges.

On connait les célèbres formules de Mark Twain :

“Les faits sont têtus. Il est plus facile de s’arranger avec les statistiques.”

“Il y a trois sortes de mensonges: les mensonges, les sacrés mensonges et les statistiques.”

Ou celle, non moins célèbre, de Winston Churchill :

“Je ne crois aux statistiques que lorsque je les ai moi-même falsifiées.”

Au delà du bon mot, ce billet de 2007 d’Alexandre Delaigue, sur Econoclaste : “La fabrique des erreurs”, donne un bon exemple de l’utilisation imprudente, voire abusive, si ce n’est hasardeuse, par un journaliste du Monde, de données statistiques dont le caractère probant n’est pas réellement démontré. L’économiste rappelle à quel point la démarche scientifique invite perpétuellement à la prudence face à “la fiabilité des protocoles expérimentaux”, aux corrélations fausses, aux “biais statistiques”, etc. Il appelle même carrément à “la méfiance” dès qu’il s’agit de tirer de ces données des interprétations, et encore plus s’il s’agit d’en déduire des préconisations.

Bref, manier les chiffres pour tenter de “les faire parler”, c’est un véritable métier, qui demande des compétences réelles et très approfondies. Il est clair qu’on ne les enseigne pas dans les écoles de journalisme, et que très très peu de journalistes disposent d’une formation complémentaire leur accordant de réelles compétences en la matière. Et je ne parle pas ici uniquement de compétences mathématiques et statistiques. La manipulation de données économiques demande des compétences d’économiste, de même pour la démographie, la géographie, etc.

Nous sommes ici dans un domaine où l’expertise est nécessaire, alors que le journaliste, par sa formation comme par sa pratique, est avant tout un généraliste.

Mais bon, rien n’empêche à vrai dire les journalistes de travailler sur cette matière en équipes, en s’associant pour ce travail à des experts. Certes, mais pourquoi l’ont-ils fait si peu jusqu’à maintenant, en travaillant sur la masse considérable de données qui sont d’ores et déjà disponibles (INSEE, INED, CNUCED, pour ne prendre que trois exemples de véritables mines d’or de données, très largement sous-exploitées par les journalistes) ?

Il y a quelque chose d’étrange pour moi à considérer que la question aurait un quelconque rapport avec la quantité de données disponibles à exploiter pour le journalisme : on ne le fait pas, ou très peu, avec ce qui est disponible aujourd’hui, mais on le fera immédiatement, bien entendu, si vous démultipliez la masse des données libérées. Il y a quelque chose dans cette approche qui me rappelle un sketch de l’humoriste Sylvie Joly face à son tas de linge à repasser : quand il est trop petit, ça ne vaut pas le coup de s’y mettre alors on attend qu’il grossisse ; mais quand il a grossi, l’ampleur de la tâche devient totalement… décourageante ! :o)

J’ai un peu peur, aussi, que ces adeptes de ce “nouveau” journalisme de données (ils sont d’ailleurs souvent jeunes et pleins d’énergie) manquent justement un peu de cette “mémoire du journalisme” qui pourrait sérieusement relativiser leur enthousiasme. J’ai en effet le sentiment qu’on nous refait là “le coup de l’infographie” qu’on a connu dans la presse quotidienne papier, il y a une dizaine d’années.

Ça ressemble bien, avec le recul, à un effet de mode, ou bien à un enthousiasme excessif pour quelque chose qui n’a, finalement, jamais tenu ses promesses. Il y a une dizaine d’années, en effet, l’heure était à l’infographie, partout dans les quotidiens. On avait trouvé une sorte de “solution magique” qui allait renouveler en profondeur la manière de traiter et “mettre en scène” l’information dans les quotidiens, et ramener des lecteurs qui désertaient déjà en masse ce type de publication. A peu près tout était “infographiable”, il fallait en “mettre partout”. Pas seulement dans les secteurs qui utilisaient déjà traditionnellement les représentations graphiques de l’information, comme l’économie ou la démographie, mais aussi dans le sport, la politique et pourquoi pas la littérature…

L’opération a fait long feu, et il est intéressant de se demander pourquoi, au moment où il semble bien que certains soient prêts à nous resservir le plat, certes accommodé un peu différemment, avec un petit verni technophile et américanisant, à grands coups de “database” et d’extractions automatisées par la grâce de la programmation informatique.

Le développement de l’infographie dans les quotidiens a rapidement mis en évidence un manque de compétences techniques et graphiques disponibles dans les rédactions. Il a fallu embaucher ou former du personnel en interne. La réalisation d’infographies pertinentes s’est révélée en fait longue et complexe, demandant aux journalistes de terrain de modifier leurs méthodes de travail pour aller à la recherche des données chiffrées pertinentes en mesure d’illustrer leur sujet sous la forme d’infographie, puis de passer beaucoup de temps avec les techniciens pour traiter ces données de manière adaptée. Tout ça s’est donc révélé très coûteux. Et pour quel résultat auprès des lecteurs ?

Et bien le résultat ne s’est pas avéré si probant qu’on l’espérait. Certains lecteurs sont assez friands de représentations graphiques de l’information (et j’en suis moi-même un bon exemple), mais nous sommes en réalité très minoritaires. La majorité des lecteurs ne s’intéressent pas plus que ça à ces infographies, qui sont en réalité bien plus difficiles à lire que des textes traditionnels racontant des histoires.

Toutes ces formes de représentations graphiques de l’information, sous la forme d’infographies scénarisées, mais tout autant sous la forme de graphiques, de schémas ou de cartes, demandent une compétence pour être lues que la plupart des lecteurs, qui n’ont pas fait d’études supérieures, ne possède pas. Je rappelle pour info que 70% de la population française a un niveau de formation inférieur ou égal au baccalauréat (Source : INSEE 2007).

Bref, il s’agit d’un traitement de luxe de l’information, destiné à une élite intellectuelle.

Je ne veux bien entendu pas dire que ce n’est pas intéressant et utile, mais ce type d’information n’est destiné qu’à rester cantonné à un lectorat de niche, prêt à payer cher son information. Et j’ai bien peur que les journalistes qui nous refont aujourd’hui “le coup de l’infographie” confondent encore ce qu’ils estiment bon pour le public et ce que le public demande réellement…

Et je suis tenté de faire ici un parallèle avec ce journalisme multimédia, ou rich media, dont on nous annonce depuis quinze ans l’arrivée imminente, et dont on ne voit en réalité que des expérimentations si rares qu’elles en apparaissent exceptionnelles. Là encore, produit de luxe destiné à une élite…

Aujourd’hui plus que jamais, le cœur de métier du journalisme grand public, c’est l’art de raconter l’actualité avec des histoires. Le storytelling a encore de beaux jours devant lui face au database journalism

—-

Lire aussi, en contrepoint complet à ce billet :

Work In Progress : “Abcisse et ordonnée, les repères du journalisme de données”

AFP-Mediawatch : “Données publiques et journalisme : une mine de richesses !”

—-

39 Comments

  1. Marrant, j’avais fait un billet très très proche de celui-ci (jusqu’aux citations !) il y a quelques mois !

    Comme quoi, les grands esprits se rencontrent 😉

  2. Je rejoins la remarque sur la difficulté de représenter “simplement” une tendance, une évolution avec des journalistes qui ne voient pas, qui ne se rendent pas compte de la quantité maximale admissible d’infos qu’il peut y avoir sur un panneau, fixe ou animé, qui passe en 5 à 8 secondes à la télé. Et aussi, en tant que vieux con, je me suis toujours insurgé contre la tendance, depuis pas mal de temps, maintenant de tronquer un graphe pour mieux représenter son évolution, pour que ça marque, coco. quand l’ordonnée d’un graphe évolue entre 9,5 et 10,5% d’une valeur et l”abscisse entre 10h30 et midi pour mieux impacter l’esprit du lecteur. Cest comme si on tirait une photo de paysage en key pour mieux percevoir les courbes des collines. C’est une tendance de fond qui, à force d’exagérer, dénature le contexte de l’information à transmettre.

  3. C’est certain que ça demande des compétences particulières ! Pour commencer, par exemple, ne pas confondre corrélation avec lien de cause à effet… et tout plein d’autres “pièges” dans lesquels on tombe facilement quand, justement, on n’a pas ces compétences. Oui, c’est un domaine, où il faut une certaine expertise.

    Quant à falsifier des statistiques… à moins d’être déjà bon en statistiques, ça se remarque quand même assez facilement… avec, justement, les statistiques.

  4. Database journalism ?
    Pour moi, l’analyse de données est franchement du domaine du scientifique, pas du journaliste. Après, rien n’empêche de faire un papier sur les résultats, évidemment…

  5. Bonjour,

    La majorité des lecteurs ne s’intéressent pas plus que ça à ces infographies, qui sont en réalité bien plus difficiles à lire que des textes traditionnels racontant des histoires.

    Est-ce que vous pouvez citer des sources permettant d’enchérir sur ce sujet ? Je pense notamment à l’infographie au journal télévisé, souvent utilisé.

    Cela n’enlève rien à l’efficacité du storytelling, évidemment.

  6. @ Rubin

    Il y doit y avoir des thèmes (et des contre-thèmes) qui sont dans l’air du temps… 😉

    @ Hervé

    J’ai remarqué cette tendance à tronquer les infographies à la télé, en “zappant” l’échelle des phénomènes que l’on prétend montrer, pour focaliser sur des évolutions qui n’ont plus aucun sens si on ne les rapporte pas, justement , à leur échelle. Déjà que ce genre de données est difficile à lire, surtout en quelques secondes, mais là, ça n’a plus de sens… 🙁

    @ Loi de Benford

    Je suppose que ton pseudonyme fait référence à ça, non ? :o)

    @ Pierre

    D’autant que les “experts ès chiffres” sont le plus souvent très contents de travailler avec des journalistes, quand on les sollicite. Les “experts” savent souvent faire parler les chiffres, et les journalistes savent souvent parler au plus grand nombre… Mais pas toujours, pour les uns comme pour les autres, bien entendu…

    @ Oneiromorata

    Je n’ai pas trop de sources sur les pratiques de la télé sur ce sujet (à part ce que je vois moi-même). Mais Hervé (voir plus haut) donne déjà une bonne piste… 🙂

  7. Les futures enjeux sont justement de présenter/trier/filtrer/relier ces informations.

    Outre la phase d’ergonomie, il faudra également passer par une phase de normalisation pour interroger toutes ces données ou passer par des phases de consolidations pour avoir une interface commune à plusieurs sources.

    Commentaire posté sur FredCavazza.net

  8. Toutes les personnes travaillant sur le web sémantique ne cessent de démontrer les avantages de disposer des contenus “sémantisés”…

    Mais je me pose la question de la monétisation de ces données.
    Il est déjà difficile pour les éditeurs de blogs de se faire rémunérer et cela semble déjà difficile de lutter contre la repompe de leurs contenus.
    Avec la sémantique, quel modèle économique peut s’appliquer aux éditeurs de ces “données” alors que les automatisations deviendront encore plus puissantes et faciles à réaliser tout en étant à la fois peut-être plus difficile d’en identifier la source, puisqu’on parle souvent de données brutes qui seraient réexploitées dans d’autres applications ou sites internet pour être servies complètement différemment ?

    Commentaire posté sur FredCavazza.net

  9. Frédéric, excellent article et très complet. L’enjeu est tellement énorme que ça laisse rêveur (allez, en poussant un peu on peut en faire un film de SF avec l’entité Google !).

    Commentaire posté sur FredCavazza.net

  10. Moi il me semble que ça sera un peu plus compliqué, du moins à partir des données ou contenu.

    Dans l’hypothèse où google vendrait l’observation du comportement des individus, et à partir du moment où Google aurait le contenu, google passerait son temps à s’observer lui même, ce qui est – je suppose – invendable. Déjà, aujourd’hui, je crois que 20% des requêtes du web sont pour google, ce qui signifie qu’il ne reste “que” 80% d’observable et donc vendable pour google.

    Google est fort pour transformer un contenu qu’il n’a pas en données que l’on peut rechercher… exemple typique avec google map, où il n’a pas la géographie, mais où il les transforme en données qu’on peut trouver (je sais pas si je suis clair ?? ) (et de toutes façons peut être que je me trompe)

    L’ennui est que les données cherchables deviennent une fin en soi… ça perturbe l’observation.

    Egalement, il me semble que il faut faire le rapport entre un contenu et un comportement. Je pense que c’est surtout là l’enjeu des “outils d’aide à la décision”… c’est surtout pour essayer d’observer quelle est cette décision, et moins pour améliorer la présentation des résultats, ou rendre un service à l’utilisateur (de toutes façons, il va la prendre, sa décision).

    De cette question sur le rapport contenu-données-comportement vous ne dites rien ? Me trompe-je peut être encore.

    Je pense que c’est pour cette raison que google maintient un rapport fort avec l’actualité (ses petits logos qui changent avec les anniversaires, google news, présence très rapide sur les gros coups médiatiques, etc). Outre la sympathie du public, il est ainsi mieux placé pour observer les comportements.

    Commentaire posté sur FredCavazza.net

  11. Encore un bon article, merci Fred

    Pour répondre à ista:
    D’abord le contenu ne sert que d’appât pour faire venir un maximum d’utilisateurs. C’est pour celà que Google offre gratuitement le contenu (ex: map)
    Google enregistre ton comportement et en fait une grande base de donnée.
    Ensuite l’accès à cette base est revendu à des entreprises, ces entreprises l’analyse (= analyse du comportement) et s’en servent pour la prise de décision.

    Prenons un exemple:
    je fabrique une voiture et je prévoit de mettre de série un port pour brancher son lecteur mp3, mais quels le lecteur le plus utilisé par mes futurs clients. (Je connais leur profil puisque j’ai construit la voiture par rapport à lui)
    Donc là j’apelle Google pour qu’il me donne les habitudes d’achat des gens correspondant à mon profil.
    Avec ça je fait une analyse et je sais quel lecteur mp3 est principalement utilisé.

    Donc ce qui m’intéresse ce n’est pas le contenu en lui-même (le lecteur mp3 ou le site d’achat), mais le comportement des utilisateurs par rapport à celui-ci (quel lecteur mp3 a été le plus acheté)

    Je rajoutera qu’il faut voir le nombre de sites qui utilisent des scripts de Google tels que google-analytics.com ou googleusercontent …. merci Firefox et l’add-on NoScript !!

    Commentaire posté sur FredCavazza.net

Comments are closed.