données anonymes étude

Mauvaise nouvelle : les données  » anonymisées  » ne sont pas anonymes

Les données  » anonymisées  » ne sont en réalité pas du tout anonymes et il est très facile de ré-identifier leurs propriétaires. C'est ce que révèle une étude inquiétante menée par des chercheurs belges et britanniques…

Si Facebook est devenu le sujet d'un documentaire Netflix après l'affaire Cambridge Analytica, la firme de Mark Zuckerberg est toutefois loin d'être la seule à collecter et à partager vos données. Un grand nombre d'organisations se permettent de partager vos informations personnelles, en affirmant néanmoins que ces données sont totalement  » anonymisées « .

Dès lors, nulle raison de se soucier de voir vos informations circuler de main en main puisqu'elles ne vous sont plus associées. Malheureusement, une étude menée par les chercheurs de l'Université catholique de Louvain, en Belgique, et de l'Imperial College de Londres révèle que l'anonymisation des données est une vaste plaisanterie.

En utilisant le Machine Learning, les chercheurs ont développé un système permettant d'estimer la probabilité qu'une personne spécifique puisse être à nouveau identifiée à partir d'un ensemble de données anonymisées contenant des caractéristiques démographiques.

Données anonymes : 99% des Américains peuvent être ré-identifiés à partir de 15 attributs démographiques

Si l'on se fie au résultat, plus de 99% d'Américains pourraient être à ré-identifiés avec succès à partir de n'importe quel ensemble de données contenant au moins 15 attributs démographiques tels que l'âge, le genre ou le statut marital.

En effet, comme l'explique Luc Rocher qui a dirigé l'étude,  » même s'il existe de nombreux hommes âgés de la trentaine et vivant à New York City, peu d'entre eux sont également nés le 5 janvier 2019, conduisent une voiture de sport rouge et ont deux enfants et un chien « .

Si 15 attributs démographiques peuvent sembler difficiles à réunir, c'est très loin d'être le cas. En guise d'exemple, l'étude cite le Data Broker Experian qui a vendu à Alteryx un ensemble de données anonymisées contenant 248 attributs par foyer pour 120 millions d'Américains.

Pour vous permettre d'estimer et de comprendre la probabilité d'être ré-identifié à partir de vos données, les chercheurs ont mis en ligne un outil à cette adresse. Celui-ci vous permet de vérifier si l'on peut vous identifier à partir de trois caractéristiques démographiques : le genre, la date de naissance, et le code postal. En moyenne, 83% des individus peuvent être identifiés de cette façon.

En conclusion de l'étude, publiée dans le journal Nature Communications, les chercheurs estiment que les méthodes actuelles d'anonymisation des données ne sont pas suffisamment performantes pour répondre aux exigences du RGPD européen ou du Consumer Privacy Act californien

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

1 commentaires

1 commentaire

  1. Pour limiter les risques de fuites d’informations, une personnes (ex : un patient) ne figure dans une base de donnees anonymes que si cela est obligatoire ou vraiment utile

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *