landscape-1452206724-trump-cold-open

Trump / Sondages: l’échec du Big Data?

La prolifération croissante des sources d’information engendrée par la révolution numérique a forcé les professionnels de la data à s’adapter, à trouver un nouvel équilibre entre qualitatif et quantitatif. Et alors que beaucoup voyaient en cette élection l’apogée de la Big Data analytique et prévisionnelle, tout s’est effondré au soir du dépouillement où sondages, spécialistes et outils exploitant les données ce sont avérés bien peu efficace pour prédire un résultat soit disant joué d’avance. Alors, échec de la data, ou défaillance de ceux qui la manipule?
They said i’m about to loose…
Let’s see…Donald Trump, Sept. 2016.
L’échec du Big-Data, une évidence de prime abord.

Première question: comment les instituts de sondage et les outils de prédiction ont-ils pu se tromper dans de telles proportions? Juste avant le 8 novembre, soir de l’élection, la plupart des sondeurs américains prédisaient une avance d’au moins 3% pour Hillary Clinton. Concernant Donald Trump, le New-York Times n’évoquait que 15% de chances de gagner l’élection, alors que l’outil de prédiction du site FiveThirtyEight tablait lui sur 29% (cf image plus bas).

Le comble, c’est qu’en plus du triomphe annoncé d’Hillary Clinton, ces élections annonçaient aussi l’apogée des techniques de communication personnalisées et autres outils de ciblage d’électeurs potentiels permises grâce à la Big Data (très largement utilisés par les équipes de campagnes du clan démocrate et ouvertement critiqués par le candidat républicain). Avec son ciblage précis des électeurs à convaincre quartiers par quartiers, avec des argumentaires personnalisés en fonction des informations recueillies et avec des techniques de collectes d’informations performantes, l’outil de prédiction utilisé par les les équipe de campagnes Démocrates depuis Obama et crée par la société NGP Van ne s’est finalement pas avéré suffisant pour inverser une tendance qu’aucun analyste n’avait vu venir.

FiveThirthyEight-who-will-win-the-presidency-2016 Trump / Sondages: l'échec du Big Data? Tout Big Data

Projections des résultats juste avant l’élection sur l’outil de prédiction du site d’information FiveThirtyEight.

La victoire de Donald Trump a eu lieu malgré un concert somme toute unanime d’un grand nombre de spécialistes qui insistaient sur sa future défaite, ce qui pousse certains a remettre en cause non pas seulement les sondages, mais aussi et surtout toutes les autres disciplines usant de la collecte de données et de l’analyse prédictive. “Si le Big Data s’avère si peu utile pour prédire le résultat d’une élection alors à quel point peut-on lui faire confiance quand il s’agit de prédire l’émergence d’une guerre civile ou encore pour prévoir une attaque terroriste? » se demande Patrick Tucker, auteur de « The Naked Future: What Happens In A World That Anticipates Your Every Move?« , un livre qui analyse les conséquences de la science prédictive sur nos vies quotidiennes.

L’humain se trompe, pas les chiffres.

Pourtant, une analyse avec plus de recul sur l’évènement devrait nous pousser à revoir notre jugement. Le résultat de cette élection ne marque pas l’échec du Big Data, pas plus qu’il ne sonne le glas de la collecte de données massives, avec tous les aspects positifs (sur notre vie quotidienne) ou négatifs (sur notre vie privée) que cela comporte. Il met à la lumière de tous les difficultés que peuvent éprouver les hommes à traduire cette masse de donnée gigantesque et à établir des modèles d’analyses plus souples, susceptibles d’anticiper ce qui hier était encore inconcevable.

Capture-d’écran-2016-11-16-à-19.37.40 Trump / Sondages: l'échec du Big Data? Tout Big Data Les chiffres n’étaient ni bons, ni mauvais. Ils ont juste manqués d’analyse en profondeur et auraient peut être mérité un traitement moins unilateral et moins partisan. Cet échec spectaculaire et quasi unanime des experts politiques et prévisionniste ouvre la voie vers une étude plus productive et plus comparative entre chiffres, mots et statistiques d’une part et entre analystes, données et message d’autre part. Il devient alors indispensable de ne pas s’arrêter aux sondages et de trouver de nouveaux champs d’études qui pourraient améliorer les modèles d’analyse actuels- une mission urgente quand l’électorat atteint un tel taux de volatilité et d’indécision.

Chaque modèle, chaque algorithme, chaque programme d’intelligence artificielle n’est (pour l’instant) que le reflet inconscient des préjugés de son créateur. Il-y-à par exemple une subjectivité parfois directe, parfois induite, dans les choix éditoriaux qu’impliquent la création d’un sondage, et une subjectivité naturelle quand il s’agit d’analyser et de traduire un très grand nombre de données. D’autre part, l’analyse des données n’est rien sans la prise en compte du facteur « humain », beaucoup plus aléatoire que les données.

TrumpCelebrationTA Trump / Sondages: l'échec du Big Data? Tout Big Data

Il devient dès lors essentiel de constamment remettre en cause non pas les chiffres, mais plutôt le postulat de départ et la méthode. Le statisticien Salil Mehta explique ici pourquoi le modèle actuel utilisé par beaucoup de sondeurs est devenu inefficace, et ici, David Masserman du site FiveThirtyEight (vous savez, le site qui prévoyait seulement 38% de chance de victoire pour Trump) annonçait pourquoi et comment Tump allait gagner, comme s’il connaissait les résultats à l’avance. On était un mois avant l’élection, et sont billet en a fait rire plus d’un…


Autres sources:

LeMonde- L’élection de Trump et les trois échecs du Big Data électoral.
KDnuggets-  Trump faillure of prediciton and lessons for Data Scientists
FiveThirtyEight- How Trump Could Win The White House While Losing The Popular Vote

Laisser un commentaire