Identifier un inconnu en quelques secondes : comment les algorithmes se nourrissent des photos trouvées sur internet

© Tous droits réservés

Temps de lecture
Par Am.C. avec Agences

Clearview AI, PimEyes… ces noms ne vous disent peut-être rien, mais eux connaissent bien votre tête. Ces deux entreprises se sont spécialisées dans la récolte de photos sur internet. Grâce à des algorithmes de reconnaissances de visage, ils sont capables de mettre un nom sur le faciès d’un inconnu en quelques secondes à peine.

C’est ce qui inquiète un groupe d’ONG qui a saisi les autorités de plusieurs pays européens contre Clearview la semaine dernière. "Les plaintes ont été déposées auprès des autorités de protection des données en France, en Grèce, en Autriche, en Italie et au Royaume-Uni", expliquait jeudi dernier l’ONG Privacy International (PI).

Dans leurs plaintes, PI et d’autres organisations (l’italienne Hermes Center for Transparency and Digital Human Rights, la grecque Homo Digitalis et l’autrichienne noyb) dénoncent l’utilisation par Clearview AI d’un "dispositif automatisé de récupération d’images", qui parcourt internet et extrait toutes les images de visages humains détectées.

Scraper pour identifier et matcher

Dans le jargon d’internet, on appelle ça du "web scraping" (littéralement "gratter" les réseaux à la recherche de données). Grâce à des petits programmes informatiques, des entreprises comme Clearview téléchargent automatiquement des millions d’images disponibles en accès libre sur la toile. Leur terrain de chasse préféré : les réseaux sociaux tels que Facebook, Instagram, Twitter ou Linkedin.

Ensuite, à l’aide d’un algorithme, ces images sont traitées pour créer une base de données biométriques dont l’accès est vendu "à la police et à des sociétés privées dans divers pays", déplorent les plaignants.


►►► À lire aussi : La reconnaissance faciale, un filon et un danger ?


C’est même l’un des principaux arguments de Clearview qui met en avant sur son site internet les différentes polices américaines qui utilisent ses services. "Nous croyons que les forces de l’ordre doivent avoir les meilleurs outils à leur disposition pour les aider à résoudre des enquêtes", fait valoir l’entreprise.

"La loi européenne sur la protection des données est très claire sur les finalités pour lesquelles une compagnie peut utiliser nos données", observe Ioannis Kouvakas, juriste à PI. "Extraire nos caractéristiques faciales uniques, et les partager avec la police et d’autres groupes, va entièrement à l’encontre de ce à quoi un utilisateur d’internet peut s’attendre", ajoute-t-il.

Les régulateurs britannique et australien chargés de la protection des données avaient de leur côté lancé une enquête conjointe sur la société californienne en juillet 2020.

"Surveillance de masse" illégale

En février 2021, un rapport du Commissariat canadien à la protection de la vie privée avait estimé que Clearview exercé au Canada une "surveillance de masse" illégale. Le rapport notait qu’elle avait constitué une base de données de "plus de trois milliards d’images de visages". La société s’est retirée du marché canadien au cours de l’enquête.

Pas de quoi mettre à mal pour le moment ses activités de l’entreprise américaine qui figure parmi le classement des 100 entreprises les plus influentes, établi par le magazine américain Time.

Clearview, qui n’est pas ouvert aux particuliers, n’est pas le seul sur ce marché florissant de la reconnaissance faciale. La preuve avec PimEyes, un site internet accessible gratuitement avec des fonctionnalités limitées. Le principe est simple : vous mettez une image dans le moteur de recherche. Quelques secondes plus tard, des dizaines de portraits pouvant correspondre apparaissent.

Selon le Washington Post, PimEyes est "l’un des outils de recherche de visages les plus performants de la planète. En moins d’une seconde, il peut parcourir plus de 900 millions d’images provenant d’Internet et trouver des correspondances avec une précision étonnante".

Qu’est-ce qui les arrête ? Littéralement rien

Pour Stephanie Hare, une spécialiste du sujet qui alerte sur la reconnaissance faciale depuis plusieurs années, le pouvoir de PimEyes pose question. "Qu’est-ce qui les arrête ? Littéralement rien", dit-elle au Washington Post. Et d’ajouter : "Les gens qui mettent ces photos sur internet, avec leurs enfants, leurs parents, les gens qui pourraient être vulnérables – ils ne le font pas dans le but de nourrir une base de données que des entreprises pourraient ensuite monétiser."

Il n’empêche, le système existe… et on imagine bien comment il pourrait être détourné par des personnes mal intentionnées. Ce service "pourrait être utilisé par des stalkers" [un terme qui désigne la recherche d’information sur une personne, pouvant tourner à l’obsession, voire au harcèlement, ndlr], alerte la BBC.

Sur sa page d’accueil, PimEyes se défend de telles critiques en mettant l’accent sur un usage en particulier de son service : la protection de… la vie privée.

Car le site permet en effet de recevoir une alerte chaque fois qu’une photo qui "matche" avec la cible recherchée apparaît dans la base de données. "Nous croyons que vous avez le droit de vous trouver sur internet et de protéger votre vie privée et votre image. En utilisant les dernières technologiques d’intelligence artificielle et de machine learning, nous vous aidons […] à vous défendre contre les arnaques, le vol d’identité ou contre ceux qui utilisent votre image illégalement."

"Données sensibles"

En tout cas, PimEyes propose des résultats parfois très précis. En témoigne ce test effectué par une journaliste de CNN qui a testé l’outil avec une photo d’elle. Surprise : une image, prise en 2013 à un mariage, refait surface. "Je n’avais pas vu à l’époque qu’on prenait ma photo, mais ce n’est pas le plus frappant. C’est surtout que je suis à peine dans la photo, à la droite du cadre, on voit une partie de mon visage de profil."

"PimEyes ne sauve pas les images trouvées sur le web, mais il garde une trace des dimensions du visage sur des portraits trouvés en ligne", précise CNN. Quant aux images mises dans le moteur de recherche pour trouver des correspondances, l’entreprise affirme qu’elle les supprime après 48 heures.

Comme l’écrit le site internet de l’Autorité belge pour la protection des données (APD), de telles données biométriques "ont été expressément élevées au rang de données sensibles car le contexte dans lequel elles sont traitées pourrait engendrer des risques importants pour nos droits et libertés".

"Que penser d’entreprises privées qui détiennent à ce jour les plus grandes bases de données images ? Et de technologies de reconnaissance faciale qui permettent, à partir d’un nom, de retrouver sur le réseau et le web toutes les images représentants la personne ? Que penser également de l’utilisation de ces méthodes dans des lieux publics ?", interroge l’APD sans apporter de réponse définitive. Et de souligner qu'"il n’existe encore que peu d’opinions institutionnelles sur ces questions".

Rendez-vous dans dix ans ?

Reste cette question, au-delà de tout ce que nous laissons en accès libre sur internet : que deviendront dans une décennie, voire plus, les photos de vacances, les instantanés d’anniversaires, les soirées entre amis innocemment postées en privé sur les réseaux sociaux ? A qui appartiendront les serveurs qui les contiennent aujourd’hui ? Qui décidera de leur usage et de leur finalité ?

Exemple concret qui remonte à 2019 : une base de données intitulée MegaFace attire l’attention du New York Times. "Comment des photos de vos enfants renforcent des technologies de surveillance", titre alors le journal. C’est Yahoo, un temps propriétaire de Flickr, qui a fourni en 2014 ces images sous licence Creative Commons à des fins de recherche, notamment pour l’Université de Washington.

La base de données a ensuite été employée dans bien d’autres contextes que celui de la recherche universitaire, détaille exposing.ai, un site spécialisé sur le sujet. Ou comment les souvenirs d’hier viennent nourrir les algorithmes de demain.

Inscrivez-vous aux newsletters de la RTBF

Info, sport, émissions, cinéma... Découvrez l'offre complète des newsletters de nos thématiques et restez informés de nos contenus

Tous les sujets de l'article

Sur le même sujet

Articles recommandés pour vous