Jean-Paul Baquiast (avatar)

Jean-Paul Baquiast

Editeur du site Europesolidaire.eu et co-éditeur du site Automates Intelligents.com

Abonné·e de Mediapart

2901 Billets

0 Édition

Billet de blog 24 juillet 2015

Jean-Paul Baquiast (avatar)

Jean-Paul Baquiast

Editeur du site Europesolidaire.eu et co-éditeur du site Automates Intelligents.com

Abonné·e de Mediapart

La mémoire des tweets

En 2010, alors que l'usage de Twitter commençait à se répandre, la Library du Congrès à Washington avait décidé de mémoriser sans exceptions et sans limitations de temps l'ensemble des tweets qui allaient être émis dans le monde. Cette mémoire incluait non seulement le message lui-méme, mais toutes les méta-données concernant son émission, soit 100 informations différentes en moyenne.

Jean-Paul Baquiast (avatar)

Jean-Paul Baquiast

Editeur du site Europesolidaire.eu et co-éditeur du site Automates Intelligents.com

Abonné·e de Mediapart

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.

En 2010, alors que l'usage de Twitter commençait à se répandre, la Library du Congrès à Washington avait décidé de mémoriser sans exceptions et sans limitations de temps l'ensemble des tweets qui allaient être émis dans le monde. Cette mémoire incluait non seulement le message lui-méme, mais toutes les méta-données concernant son émission, soit 100 informations différentes en moyenne.
En 2015, il n'est toujours pas possible d'accéder à la mémoire ainsi constituée, bien que le travail d'enregistrement se poursuive. Comme l'on devine, la Library est submergée par le nombre de tweets reçus. Conçu initialement pour mémoriser 20 milliards de messages au total, le système doit faire face à l'émission d'un demi milliard de tweets par jour. Aussi vaste que soient les mémoires disponibles, elles doivent être continuellement augmentées.
Plus difficile encore à résoudre est la question du moteur de recherche permettant d'accéder en un temps raisonnable aux informations recherchées. Aujourd'hui une recherche demande 24 h avant d'aboutir à un résultat, et un coût de traitement en proportion. Des solutions sont recherchées mais il ne semble pas qu'elles aient encore été trouvées. Il faut cependant se rassurer. Elles le seront.
Pourquoi faire de tels efforts? Les auteurs initiaux du projet avaient annoncé que le rapprochement de tweets différents pourrait donner lieu à l'obtention d'informations de grande valeur scientifique concernant les sujets traités, les lieux d'émission et les auteurs eux-mêmes. C'est tout à fait faisable. C'est ainsi d'ailleurs que travaille plus discrètement la NSA dans l'exploration des immenses bases d'information qu'elle collecte quotidiennement dans le monde. Mais pour elle ne se pose pas les coûts de traitement, automatiquement pris en charge, non plus que les questions de confidentialité et de protection des droits des citoyens.
La Library du Congrès travaille aux Etats-Unis, où la protection de la confidentialité, le droit à l'effacement et autres mesures étudiées actuellement en Europe ne sont pas encore des priorités politiques. Cependant un nombre croissant de questions sont posées concernant les raisons pour lesquelles la Library sort de ses domaines classiques de compétence pour s'intéresser aussi systématiquement aux flux de trafic générés par des réseaux tels que Twitter ou Google.
On peut penser que, malgré ses dénégations, elle y soit encouragée par la NSA, la CIA et autres agences de défense américaine. On peut penser plus généralement que la démarche de la Library fasse partie des nombreuses actions par lesquelles les Etats-Unis, globalement, s'assurent une confortable avance de quelques années leur permettant de mieux contrôler le monde numérique en train de se généraliser.

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.