FRANCE

Présidentielle française : pourquoi le big data s’est trompé en prédisant un duel Fillon-Le Pen

Le deuxième tour entre Emmanuel Macron et Marine Le Pen n’était pas celui prévu par les prévisionnistes qui s’appuient sur le big data et Twitter. Les auteurs de l’algorithme Predict the President expliquent les raisons de cet échec.

Publié le : 28/04/2017 - 16:23Modifié le : 28/04/2017 - 17:42

L'algorithme Predict the President avait envoyé, à tort, François Fillon au deuxième tour. Christophe Archambault, AFP

Par : Sébastian SEIBT Suivre

Big data, big plantade. Les prédictions électorales pour le premier tour de la présidentielle française, basées sur l’analyse de données issues des réseaux sociaux, ont eu tort. La majorité de ces sondeurs 2.0 misaient sur François Fillon au second tour et plaçaient Marine Le Pen loin devant. Depuis l’annonce des résultats du premier tour, ils ont, pour la plupart, gardé le silence sur les raisons de cet échec.

Sauf les étudiants en master spécialisé big data de l’école d’ingénieurs Télécom ParisTech, responsables de l’algorithme Predict the President. Quelques jours avant le premier tour, ils avaient expliqué à France 24 pourquoi leur modèle prévoyait un face-à-face Fillon-Le Pen au deuxième tour et pourquoi ils étaient confiants. Comme les autres, ils se sont trompés. Mais ils ont accepté de revenir sur ce couac par souci "de transparence".

François Fillon et le "sentiment Twitter"

Le ver était principalement dans Twitter, estiment les étudiants. Le poids des données issues du royaume des 140 caractères a trop pesé sur le résultat de leur algorithme, reconnaît ainsi l'un d'entre eux, Bertrand de Véricourt. Pourtant, Predict the President dépend moins du "bruit médiatique" sur Internet que d’autres concurrents qui, comme la firme canadienne Filteris ou l’application participative Gov, ne fondent leur analyse que sur le "sentiment" (un ensemble de critères pour évaluer la popularité des candidats) sur les réseaux sociaux. L’algorithme de Télécom ParisTech intègre aussi des données plus traditionnelles, comme les résultats des élections passées dans tous les départements français et les sondages de l'élection 2017. La prise en compte de Twitter et la popularité des candidats dans les recherches Google devait permettre de nuancer les résultats.

Ce lissage a cependant desservi l’algorithme. Il n’a été conçu que pour retenir les tweets positifs pour chaque candidat, ce qui a eu pour conséquence de donner une fausse image de la popularité réelle de François Fillon. Les messages hostiles au candidat du parti Les Républicains étant très nombreux, notamment à cause de sa mise en examen, ils ont "généré en réaction beaucoup de tweets positifs, ce qui a certainement surévalué les points pour lui dans notre modèle", confirment les apprentis ingénieurs.

Un certain nombre de ces gazouillis de soutiens provenait de "militants trop actifs qui ont cherché à noyer le réseau social sous le flot des messages positifs", ajoute Raphaël Vignes, un autre des étudiants contacté par France 24. Sans compter la présence avérée de bots - des comptes automatisés - qui tweetent pour l’un ou l’autre des candidats. "Nous les avions recherchés, sans pourtant trouver quoi que ce soit de significatif pour changer le résultat", explique Raphaël Vignes qui reconnaît qu’il y a peut-être des améliorations à apporter sur cet aspect.

Big data sans data

Faut-il pour autant rejeter Twitter comme source pour les prévisions politiques ? Certains en sont convaincus, arguant que ce réseau social est trop volatile et ne représente qu’une fraction du corps électoral. Bertrand de Véricourt reconnaît qu’il faudrait probablement minorer son importance dans l’algorithme, mais juge qu’il est encore trop tôt pour éliminer Twitter. "L’approche basée sur les réseaux sociaux n’est pas encore mature et nécessite des ajustements", soutient-il. Il se demande notamment si les critères retenus ont bien été pertinents ou s’il ne faudrait pas les compléter. "On pourrait par exemple prendre en compte le taux de retweet d’un message", note-t-il.

Mais Predict the President n’a pas été trompé que par le sentiment Twitter. Le cas Le Pen a aussi montré les limites du big data… quand la data manque à l’appel. L’algorithme a fait de la candidate frontiste la favorite du premier tour en analysant l’historique des votes, par département, pour l’extrême droite. Mais ce qu’il n’a pas pris en compte, soulignent les étudiants, c’est le possible transfert de voix du bloc d’extrême droite vers d’autres candidats. "Il existe des données pour modéliser le fait que des électeurs qui votent traditionnellement à l’extrême droite peuvent changer d’opinion ou s’abstenir, mais nous ne les avions pas intégrés", note Davy Bensoussan, un troisième étudiant de Télécom ParisTech impliqué dans le projet. Sur Twitter, Marine Le Pen n’était pas aussi populaire que les autres favoris du premier tour, ce qui aurait pu pousser l’algorithme à baisser sa prévision en faveur du Front national. Mais, sans les données passées, il n’a pas su à qui redistribuer ces voix.

C’est aussi le manque de données qui empêche l’équipe de Télécom ParisTech de faire une prévision pour un deuxième tour inédit. Difficile, en effet, de trouver des points de référence dans l’histoire politique française à l’affrontement entre un candidat qui n’appartient à aucun parti établi et refuse les clivages gauche-droite habituels et un parti qui n’a été présent qu’une seule fois au deuxième tour, en 2002.

Poursuivez votre lecture sur les mêmes thèmes :

Quand le big data prédit un deuxième tour entre François Fillon et Marine Le Pen

Comment Marine Le Pen drague les Insoumis de Mélenchon

"Ni Le Pen, ni Macron" : manifestations de lycéens à Paris et Rennes

Européennes : l'extrême droite française ne va plus siéger avec l'AfD au Parlement européen

Kanak, Caldoche, Caillou... Le lexique de la crise en Nouvelle-Calédonie

Emmanuel Macron se rend "dès ce soir" en Nouvelle-Calédonie

À Paris, trois hauts responsables syriens jugés pour crimes contre l'humanité

Nouvelle-Calédonie : Macron salue de "nets progrès", des évacuations vont commencer

Mort de Jean-Claude Gaudin, un enfant de Marseille devenu "monument" politique

La Nouvelle-Calédonie en proie aux blocages malgré les moyens mis en œuvre par Paris

L'État lance une vaste opération pour reprendre le contrôle en Nouvelle-Calédonie

Monte Cassino : une bataille entre gloire et déshonneur pour l'armée française

En Nouvelle-Calédonie, un mort et deux blessés sur un barrage dans le Nord

"La France, tu l’aimes mais tu la quittes" : pourquoi des musulmans surdiplômés choisissent l’exil

La Martinique placée en "crise sécheresse" pour la première fois de son histoire

Évasion d'un détenu dans l'Eure : les agents pénitentiaires prolongent leur mobilisation