L’avocat a fait confiance à ChatGPT. Il lui a fourni six références de jurisprudence. Il les a déposées devant un tribunal fédéral. Aucune de ces affaires n’existait.
C’est arrivé en mai 2023, et l’histoire a fait le tour du monde. Le juge a sanctionné les avocats impliqués. La profession a vécu un moment de panique collective. Mais voici la partie étrange : l’IA a fait exactement ce pour quoi elle a été conçue.
Sûre d’elle, mais fausse
Une hallucination d’IA, c’est quand un modèle de langage génère une information qui paraît totalement plausible, mais qui est fausse. Parfois légèrement fausse. Parfois entièrement fabriquée.
Le terme lui-même vient de la psychologie. Les humains hallucinent quand leur cerveau perçoit des choses qui ne sont pas là. Les hallucinations de l’IA fonctionnent de façon similaire, sauf qu’ici le modèle produit un texte sans ancrage dans la réalité tout en l’énonçant avec une assurance inébranlable.
Un utilisateur de Hacker News nommé diputsmonro l’a parfaitement résumé : “All responses are hallucinations. Some hallucinations happen to overlap the truth.”
Ça peut sembler provocateur. C’est aussi techniquement exact. Chaque sortie d’un modèle de langage est une prédiction des mots qui devraient venir ensuite. Certaines prédictions collent aux faits. D’autres non. Le modèle, lui, ne sait pas faire la différence.
L’architecture explique tout
Les modèles de langage ne stockent pas les faits comme le fait une base de données avec des enregistrements. Ils apprennent des motifs statistiques. Ils apprennent que certains mots ont tendance à suivre certains autres mots dans certains contextes. Ils apprennent que les questions d’histoire sont souvent suivies de dates. Ils apprennent que les références contiennent des noms d’auteurs, des titres de revues et des années entre parenthèses.
Quand vous demandez une référence à un LLM, il en génère une. Il produit un texte qui correspond au motif de ce à quoi ressemble une référence, à partir de millions d’exemples absorbés pendant l’entraînement. Savoir si cette référence correspond à un article réel existant dans le monde physique est une question à laquelle le modèle n’a aucun mécanisme pour répondre.
Ce n’est pas un bug logiciel. C’est l’architecture fondamentale.
Un commentateur nommé zdragnar a expliqué le cœur du problème sur Hacker News : “the model itself doesn’t know the difference, and will proclaim bullshit with the same level of confidence.”
Cette assurance, c’est ce qui tue. Les humains calibrent leur confiance en fonction du degré de certitude perçu chez l’autre. Nous avons évolué dans un environnement où les affirmations sûres d’elles venaient généralement de personnes ayant une connaissance directe. Une IA entraînée à maximiser l’engagement des utilisateurs apprend à sonner sûre d’elle, parce que l’assurance est récompensée.
Pourquoi l’entraînement aggrave le problème
Voici quelque chose de contre-intuitif. La manière dont nous entraînons les modèles de langage encourage activement l’hallucination.
L’entraînement consiste à montrer des millions d’exemples au modèle et à le récompenser quand ses prédictions correspondent à ce qui venait réellement ensuite dans les données d’entraînement. Le modèle gagne des points quand il a raison. Il gagne zéro point quand il dit “I don’t know.” Comme un étudiant qui comprend que laisser une question vide à un examen garantit l’échec, le modèle apprend que deviner vaut mieux qu’admettre l’incertitude.
Une recherche de Lilian Weng chez OpenAI note que les modèles apprennent de nouvelles informations pendant le fine-tuning plus lentement que les informations qui correspondent à leurs connaissances existantes. Pire encore, une fois que les modèles apprennent réellement de nouveaux faits pendant le fine-tuning, “they increase the model’s tendency to hallucinate.”
Le modèle devient meilleur pour produire du texte qui ressemble à un texte contenant des faits. Il ne devient pas meilleur pour distinguer les faits réels des motifs plausibles.
Il y a aussi un problème de données. Le texte d’Internet est la source d’entraînement la plus courante. Comme le dit une analyse technique, “Data crawled from the public Internet is the most common choice and thus out-of-date, missing, or incorrect information is expected.” Le modèle traite les textes exacts et inexacts de la même manière. Dans les deux cas, ce ne sont que des motifs à apprendre.
Le problème du silence social
Les conversations humaines ont une propriété intéressante. Quand les gens ne savent pas quelque chose, ils se taisent en général. Les sections commentaires et les forums contiennent surtout des affirmations sûres d’elles. Personne ne publie “I have no idea about this topic.” Le silence ne contient aucun texte dont on peut apprendre.
Un utilisateur de Hacker News nommé mike_hearn a identifié ce schéma : “The trouble is that the training sets contain few examples of people expressing uncertainty because the social convention on the internet is that if you don’t know the answer, you don’t post.”
Les modèles apprennent à partir du texte qui existe. Le texte qui n’existe pas n’enseigne rien. Le corpus est biaisé vers la confiance affichée et loin de l’incertitude appropriée. Le modèle hérite de ce biais.
Le problème de frontière
Une personne connaît la frontière entre mémoire et imagination. Vous pouvez vous souvenir de l’endroit où vous avez garé votre voiture tout en reconnaissant que vous imaginez ce qu’il pourrait y avoir dans la boîte à gants. Ces choses se ressentent différemment.
Les modèles de langage n’ont pas cette frontière.
Mort96 l’a formulé ainsi sur Hacker News : “The distinction between ‘this is information I truly think I know’ and ‘this is something I made up’ doesn’t exist in LLMs.”
Tout ce que le modèle produit vient du même processus. Réciter des faits bien établis implique de prédire des tokens. Inventer un non-sens plausible implique de prédire des tokens. Même mécanisme. Même niveau d’assurance. Aucun signal interne qui distingue l’un de l’autre.
C’est pour ça que les hallucinations sont si dangereuses en pratique. Il n’y a aucun signe. Aucune hésitation. Aucun marqueur subtil qui sépare une sortie fiable d’une fabrication.
Pourquoi c’est difficile à corriger
Certains problèmes de l’IA sont des défis d’ingénierie. On leur alloue plus de calcul, on affine l’entraînement, et les progrès suivent. L’hallucination est différente.
Plusieurs chercheurs ont examiné si les hallucinations pouvaient être éliminées des architectures actuelles. Le consensus qui émerge est rude. Un commentateur nommé calf a avancé que le problème pourrait être “formally unsolvable and should be rendered as absurd as someone claiming the Halting Problem is solvable.”
Ça paraît extrême. L’argument technique, en gros, est le suivant : les modèles de langage sont des approximateurs statistiques. Ils ne peuvent pas capturer complètement toutes les fonctions calculables. Ils interpoleront toujours entre des exemples d’entraînement plutôt que d’accéder à une vérité de terrain. Certaines interpolations erronées sont inévitables.
Les meilleurs modèles hallucinent moins souvent. Ils n’hallucinent pas à zéro pour cent. La courbe s’approche de zéro sans jamais l’atteindre.
Il existe des stratégies d’atténuation. La génération augmentée par récupération donne aux modèles accès à des documents externes, ce qui aide à ancrer les réponses dans des sources réelles. Le prompting en chaîne de pensée force les modèles à montrer leur raisonnement, ce qui attrape parfois des erreurs avant qu’elles ne s’accumulent. La vérification humaine reste le détecteur le plus fiable.
Mais ce sont des rustines. Elles réduisent le taux sans éliminer le phénomène. La limite architecturale demeure.
Les implications dont personne ne parle
La plupart des discussions sur les hallucinations se terminent par des conseils pratiques. Vérifiez vos sources. Vérifiez les références. Ne faites pas confiance aveuglément. Ces conseils sont justes, mais ils manquent aussi quelque chose de plus profond.
Nous construisons des infrastructures sur des systèmes qui ont un taux non nul de fabrication assurée. Pas des systèmes parfois incertains. Des systèmes toujours confiants et parfois faux, d’une façon impossible à distinguer des moments où ils ont raison.
Chaque secteur qui automatise avec des LLM accepte implicitement cela. Recherche juridique. Triage médical. Analyse financière. Support client. Génération de code. Les gains d’efficacité sont réels. Le taux d’hallucination intégré l’est aussi.
Elcritch, commentant la génération de code par LLM, a observé que “LLMs will just outright lie to make their jobs easier in one section while in another area generate high quality code.” Le même modèle, le même prompt, une fiabilité incohérente. Pas parce que quelque chose a mal tourné. Parce que c’est ainsi que le système fonctionne.
Ce que les hallucinations nous apprennent
Les hallucinations révèlent quelque chose sur la nature du langage que les humains affrontent rarement.
Une phrase peut être grammaticalement parfaite, sémantiquement cohérente, stylistiquement appropriée, et complètement fausse. Les structures du langage n’exigent pas la vérité. Une prose persuasive n’a pas besoin de correspondre à la réalité. L’autorité dans le texte est une performance, pas une garantie.
Les humains utilisent le contexte pour détecter la tromperie. Nous connaissons l’orateur. Nous connaissons ses antécédents. Nous savons quelles incitations peuvent le pousser à induire en erreur. Nous appliquons un scepticisme calibré à la situation.
Les sorties de l’IA arrivent sans ce contexte. Pas d’antécédents sur cette requête précise. Pas d’incitations que nous pouvons modéliser. Pas d’historique de relation. Juste un texte qui sonne exactement comme un texte produit par un expert qui a vérifié ses faits.
La charge repose entièrement sur le lecteur. Chaque affirmation devient suspecte jusqu’à vérification indépendante. Chaque référence doit être contrôlée. Chaque statistique doit être sourcée. L’efficacité de la génération par IA est en partie absorbée par le surcoût de vérification.
L’équilibre inconfortable
Les modèles vont continuer à s’améliorer. Les taux d’hallucination vont continuer à baisser. Des entraînements plus sophistiqués vont pénaliser l’excès de confiance. De meilleures architectures intégreront peut-être un jour quelque chose qui ressemble à une quantification de l’incertitude.
Mais la dynamique fondamentale reste la même. Ces systèmes prédisent des motifs. Les motifs ne sont pas la vérité. Certaines prédictions tomberont toujours hors des limites du factuel.
Peut-être que la vraie leçon ne concerne pas l’IA, au fond.
Les humains ont toujours évolué dans des environnements où des affirmations sûres d’elles se révèlent parfois fausses. Nous avons développé des institutions pour gérer cela : évaluation par les pairs, supervision éditoriale, procédure de communication des preuves, réplication scientifique. Faire confiance, mais vérifier. Considérer la source. Vérifier l’original.
Les hallucinations de l’IA n’introduisent pas un nouveau problème. Elles amplifient un ancien. Elles produisent des affirmations plausibles à un volume et à une vitesse qui submergent nos processus de vérification traditionnels.
L’avocat qui a déposé de fausses références n’a pas échoué parce qu’il a utilisé l’IA. Il a échoué parce qu’il a fait confiance sans vérifier. Cet échec était possible avant l’existence de ChatGPT. Il était juste plus lent à commettre.
La vérité inconfortable, c’est que les hallucinations nous forcent à nous souvenir de quelque chose que nous avons pu oublier : la fluidité n’est pas l’exactitude, la confiance n’est pas la justesse, et la relation entre les mots et la vérité a toujours été plus fragile que nous aimons l’admettre.
Chaque phrase que vous avez lue, y compris celle-ci, pourrait être fausse.
La question n’a jamais été de savoir s’il faut faire confiance. Elle a toujours été de savoir comment vérifier.