Pourquoi ChatGPT est incapable d’écrire une phrase sans “e” à la Georges Perec

À gauche : "La Disparition" (éditions Denoël, 1969). À droite : Georges Perec à Paris, en 1978. ©AFP

Pourquoi ChatGPT est incapable d’écrire une phrase sans “e” à la Georges Perec

Jeudi 4 janvier 2024

À gauche : "La Disparition" (éditions Denoël, 1969). À droite : Georges Perec à Paris, en 1978. ©AFP

ChatGPT est capable de passer haut la main l’examen du barreau de New York mais il est incapabe d’écrire une phrase sans “e” à la George Perec, on vous explique pourquoi.

ChatGPT réussit haut la main l’examen au barreau de New York. Il peut expliquer la formule d’Einstein E=MC2. Il peut faire des blagues. Il peut résoudre certaines formules mathématiques. Il peut coder. Il peut résumer de façon très pertinente un très long texte en deux phrases… Et il peut imaginer une conversation entre deux personnes qui parlent cht’i. Mais il est incapable de faire une phrase sans “e”...

Précisons d’ailleurs qu’il est aussi incapable de faire une phrase sans “o” en espagnol. Mais qu’il est en revanche très habile pour faire une phrase en anglais sans “e” ou sans “a”.

Pour afficher ce contenu Twitter, vous devez accepter les cookies Réseaux Sociaux.

Ces cookies permettent de partager ou réagir directement sur les réseaux sociaux auxquels vous êtes connectés ou d'intégrer du contenu initialement posté sur ces réseaux sociaux. Ils permettent aussi aux réseaux sociaux d'utiliser vos visites sur nos sites et applications à des fins de personnalisation et de ciblage publicitaire.

ChatGPT fait des probabilités et ne sait pas ce qu'est un "e"

C'est David Chavalarias, directeur de recherche au CNRS, au Centre d'Analyse et de Mathématiques Sociales qui a pointé le premier ce dysfonctionnement. Il nous explique pourquoi cette IA générative est incapable de faire une phrase sans "e": "Tout simplement parce qu'il ne comprend pas ce qu'est la lettre E".

"ChatGPT est une machine probabiliste, c'est-à-dire qu'elle a appris à partir de grandes quantités de textes la manière dont s'enchaînaient, de la manière la plus probable, différents mots, différentes chaînes de caractères", expose-t-il à France Inter. Mais il ne comprend pas ce qu'il manipule et donc, par exemple, écrire une phrase sans "e", c'est très rare. Il n'y a quasiment que Perec qui les a écrits. Et donc, il n'a jamais rencontré cette situation".

"Il n'y a qu'un livre avec des phrases sans 'e'"

Est-que cette inaptitude un peu grotesque est le signe que ChatGPT n’a pas scanné le livre de Georges Perec, “La Disparition” qui ne comporte aucun “e” ?

"C'est difficile de savoir s'il a digéré Pérec ou pas, parce qu'on ne sait pas sur quoi ChatGPT a été entraîné", répond David Chavalarias. "Mais ce qui est sûr, c'est que l'œuvre de Pérec est unique. Et donc il n'y a qu'un seul livre sans « e ». Et donc même s'il l'avait lu au milieu des milliards de textes, il ne l'a pas lu comme un livre avec une instruction « ceci est un livre sans « e ». Et comme il ne sait pas ce que c'est que la lettre « e », en fait il ne peut pas repérer le livre de Perec parmi tous les livres et apprendre dessus".

Pour Muriel Popa-Fabre, experte en question de traitement automatique du langage au Conseil de l'Europe "de la même façon que le système ne se représente pas le sens du mot +économie+, mais les mots qui l'accompagnent souvent, comme +taux+ ou +épargne+, il ne se représente pas non plus les lettres par elles-mêmes, mais il se représente plutôt la façon dont le « e » s'accompagne d'autres lettres qui voyagent avec lui dans les mots", explique-t-elle.

Bref, ChatGPT "a été entraîné pour générer des suites probables de mots et de lettres. Et le système au cœur de ChatGPT est entraîné sur des unités, qui sont des unités qui sont plus petites que les mots, qu'on appelle tokens, qui sont des agrégats de lettres très fréquentes, qui font que le système a du mal à identifier qu'est-ce que c'est un mot".

L'équipe

Stéphane Jourdain

Production