Des chercheurs de l’UCLouvain et de l’Imperial College London ont développé une méthode mathématique pour apprendre à réidentifier des individus à partir de données anonymisées. Les résultats publiés dans la revue Nature Communications posent question : nos données sont-elles correctement protégées ?
Qu’il s’agisse de données démographiques (recensement de la population), médicales (hôpitaux), socio-économiques (sondages) ou de données provenant de smartphone, la quantité de données collectées se multiplie.
Pour renforcer la protection des données, les institutions européennes ont mis en place le Règlement général de protection des données (RGPD) en mai 2018. Luc Rocher, chercheur doctorant à l’UCLouvain en mathématiques appliquées, met en garde contre les conséquences de ce règlement : "Dans le cadre légal actuel, le RGPD en Europe, toute donnée anonymisée ne requiert plus le consentement des personnes. Une fois qu’une donnée est anonymisée, elle peut être partagée ou revendue librement."
►►► À lire aussi : Protection des données : "Le RGPD, une évolution plutôt qu’une révolution"
Partant de ce constat, deux chercheurs de l’UCLouvain (Luc Rocher, Julien Hendrickx) et un chercheur de l’Imperial College London (Yves-Alexandre de Montjoye) se sont posé la question suivante : ces données sont-elles correctement anonymisées ?
La réponse peut faire froid dans le dos : "Les techniques utilisées ces trente dernières années pour le partage de données anonymisées sont de plus en plus fragiles. Il suffit de quelques pièces d’information pour réidentifier des personnes", indique Luc Rocher.
Comment fonctionne l’algorithme ?
Les chercheurs ont développé un algorithme qu’ils entraînent sur la base de quelques centaines ou milliers d’informations et la corrélation entre ces attributs. Ensuite, on présente une donnée anonyme à cet algorithme qui dit que telle personne a X chance de réidentifier cette personne. L’algorithme redonne un score : cette ré-identification est-elle correcte ou non ?