Qui est l’utilisateur des LLM ?

Les chatbots ne font pas que calculer des réponses, ils calculent en permanence leur interlocuteur pour adapter au mieux leurs réponses. Les LLM hallucinent et nous font croire en leurs hallucinations. Mais plus encore, ils nous hallucinent nous-mêmes !

Hubert Guillaud

Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit  Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette compréhension pour les améliorer, est pourtant essentiel, comme l’expliquait le PDG d’Anthropic. Anthropic a fait des efforts en ce sens, explique le juriste en identifiant des caractéristiques lui permettant de mieux cartographier son modèle. Meta, la société mère de Facebook, a publié des versions toujours plus sophistiquées de son grand modèle linguistique, Llama, avec des paramètres librement accessibles (on parle de “poids ouverts” permettant d’ajuster les paramètres des modèles). Transluce, un laboratoire de recherche à but non lucratif axé sur la compréhension des systèmes d’IA, a développé une méthode permettant de générer des descriptions automatisées des mécanismes de Llama 3.1. Celles-ci peuvent être explorées à l’aide d’un outil d’observabilité qui montre la nature du modèle et vise à produire une “interprétabilité automatisée” en produisant des descriptions lisibles par l’homme des composants du modèle. L’idée vise à montrer comment les modèles « pensent » lorsqu’ils discutent avec un utilisateur, et à permettre d’ajuster cette pensée en modifiant directement les calculs qui la sous-tendent. Le laboratoire Insight + Interaction du département d’informatique de Harvard, dirigé par Fernanda Viégas et Martin Wattenberg, ont exécuté Llama sur leur propre matériel et ont découverts que diverses fonctionnalités s’activent et se désactivent au cours d’une conversation. 

Des croyances du modèle sur son interlocuteur

Viégas est brésilienne. Elle conversait avec ChatGPT en portugais et a remarqué, lors d’une conversation sur sa tenue pour un dîner de travail, que ChatGPT utilisait systématiquement la déclinaison masculine. Cette grammaire, à son tour, semblait correspondre au contenu de la conversation : GPT a suggéré un costume pour le dîner. Lorsqu’elle a indiqué qu’elle envisageait plutôt une robe, le LLM a changé son utilisation du portugais pour la déclinaison féminine. Llama a montré des schémas de conversation similaires. En observant les fonctionnalités internes, les chercheurs ont pu observer des zones du modèle qui s’illuminent lorsqu’il utilise la forme féminine, contrairement à lorsqu’il s’adresse à quelqu’un. en utilisant la forme masculine. Viégas et ses collègues ont constaté des activations corrélées à ce que l’on pourrait anthropomorphiser comme les “croyances du modèle sur son interlocuteur”. Autrement dit, des suppositions et, semble-t-il, des stéréotypes corrélés selon que le modèle suppose qu’une personne est un homme ou une femme. Ces croyances se répercutent ensuite sur le contenu de la conversation, l’amenant à recommander des costumes pour certains et des robes pour d’autres. De plus, il semble que les modèles donnent des réponses plus longues à ceux qu’ils croient être des hommes qu’à ceux qu’ils pensent être des femmes. Viégas et Wattenberg ont non seulement trouvé des caractéristiques qui suivaient le sexe de l’utilisateur du modèle, mais aussi qu’elles s’adaptaient aux inférences du modèle selon ce qu’il pensait du statut socio-économique, de son niveau d’éducation ou de l’âge de son interlocuteur. Le LLM cherche à s’adapter en permanence à qui il pense converser, d’où l’importance à saisir ce qu’il infère de son interlocuteur en continue. 

Un tableau de bord pour comprendre comment l’IA s’adapte en continue à son interlocuteur 

Les deux chercheurs ont alors créé un tableau de bord en parallèle à l’interface de chat du LLM qui permet aux utilisateurs d’observer l’évolution des hypothèses que fait le modèle au fil de leurs échanges (ce tableau de bord n’est pas accessible en ligne). Ainsi, quand on propose une suggestion de cadeau pour une fête prénatale, il suppose que son interlocuteur est jeune, de sexe féminin et de classe moyenne. Il suggère alors des couches et des lingettes, ou un chèque-cadeau. Si on ajoute que la fête a lieu dans l’Upper East Side de Manhattan, le tableau de bord montre que le LLM modifie son estimation du statut économique de son interlocuteur pour qu’il corresponde à la classe supérieure et suggère alors d’acheter des produits de luxe pour bébé de marques haut de gamme.

Un article pour Harvard Magazine de 2023 rappelle comment est né ce projet de tableau de bord de l’IA, permettant d’observer son comportement en direct. Fernanda Viegas est professeur d’informatique et spécialiste de visualisation de données. Elle codirige Pair, un laboratoire de Google (voir le blog dédié). En 2009, elle a imaginé Web Seer est un outil de visualisation de données qui permet aux utilisateurs de comparer les suggestions de saisie semi-automatique pour différentes recherches Google, par exemple selon le genre. L’équipe a développé un outil permettant aux utilisateurs de saisir une phrase et de voir comment le modèle de langage BERT compléterait le mot manquant si un mot de cette phrase était supprimé. 

Pour Viegas, « l’enjeu de la visualisation consiste à mesurer et exposer le fonctionnement interne des modèles d’IA que nous utilisons ». Pour la chercheuse, nous avons besoin de tableaux de bord pour aider les utilisateurs à comprendre les facteurs qui façonnent le contenu qu’ils reçoivent des réponses des modèles d’IA générative. Car selon la façon dont les modèles nous perçoivent, leurs réponses ne sont pas les mêmes. Or, pour comprendre que leurs réponses ne sont pas objectives, il faut pouvoir doter les utilisateurs d’une compréhension de la perception que ces outils ont de leurs utilisateurs. Par exemple, si vous demandez les options de transport entre Boston et Hawaï, les réponses peuvent varier selon la perception de votre statut socio-économique « Il semble donc que ces systèmes aient internalisé une certaine notion de notre monde », explique Viégas. De même, nous voudrions savoir ce qui, dans leurs réponses, s’inspire de la réalité ou de la fiction. Sur le site de Pair, on trouve de nombreux exemples d’outils de visualisation interactifs qui permettent d’améliorer la compréhension des modèles (par exemple, pour mesurer l’équité d’un modèle ou les biais ou l’optimisation de la diversité – qui ne sont pas sans rappeler les travaux de Victor Bret et ses “explications à explorer” interactives

Ce qui est fascinant ici, c’est combien la réponse n’est pas tant corrélée à tout ce que le modèle a avalé, mais combien il tente de s’adapter en permanence à ce qu’il croit deviner de son interlocuteur. On savait déjà, via une étude menée par Valentin Hofmann que, selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses. 

“Les grands modèles linguistiques ne se contentent pas de décrire les relations entre les mots et les concepts”, pointe Zittrain : ils assimilent également des stéréotypes qu’ils recomposent à la volée. On comprend qu’un grand enjeu désormais soit qu’ils se souviennent des conversations passées pour ajuster leur compréhension de leur interlocuteur, comme l’a annoncé OpenAI, suivi de Google et Grok. Le problème n’est peut-être pas qu’ils nous identifient précisément, mais qu’ils puissent adapter leurs propositions, non pas à qui nous sommes, mais bien plus problématiquement, à qui ils pensent s’adresser, selon par exemple ce qu’ils évaluent de notre capacité à payer. Un autre problème consiste à savoir si cette “compréhension” de l’interlocuteur peut-être stabilisée où si elle se modifie sans cesse, comme c’est le cas des étiquettes publicitaires que nous accolent les sites sociaux. Devrons-nous demain batailler quand les modèles nous mécalculent ou nous renvoient une image, un profil, qui ne nous correspond pas ? Pourrons-nous même le faire, quand aujourd’hui, les plateformes ne nous offrent pas la main sur nos profils publicitaires pour les ajuster aux données qu’ils infèrent ? 

Ce qui est fascinant, c’est de constater que plus que d’halluciner, l’IA nous fait halluciner (c’est-à-dire nous fait croire en ses effets), mais plus encore, hallucine la personne avec laquelle elle interagit (c’est-à-dire, nous hallucine nous-mêmes). 

Les chercheurs de Harvard ont cherché à identifier les évolutions des suppositions des modèles selon l’origine ethnique dans les modèles qu’ils ont étudiés, sans pour l’instant y parvenir. Mais ils espèrent bien pouvoir contraindre leur modèle Llama à commencer à traiter un utilisateur comme riche ou pauvre, jeune ou vieux, homme ou femme. L’idée ici, serait d’orienter les réponses d’un modèle, par exemple, en lui faisant adopter un ton moins caustique ou plus pédagogique lorsqu’il identifie qu’il parle à un enfant. Pour Zittrain, l’enjeu ici est de mieux anticiper notre grande dépendance psychologique à l’égard de ces systèmes. Mais Zittrain en tire une autre conclusion : “Si nous considérons qu’il est moralement et sociétalement important de protéger les échanges entre les avocats et leurs clients, les médecins et leurs patients, les bibliothécaires et leurs usagers, et même les impôts et les contribuables, alors une sphère de protection claire devrait être instaurée entre les LLM et leurs utilisateurs. Une telle sphère ne devrait pas simplement servir à protéger la confidentialité afin que chacun puisse s’exprimer sur des sujets sensibles et recevoir des informations et des conseils qui l’aident à mieux comprendre des sujets autrement inaccessibles. Elle devrait nous inciter à exiger des créateurs et des opérateurs de modèles qu’ils s’engagent à être les amis inoffensifs, serviables et honnêtes qu’ils sont si soigneusement conçus pour paraître”.

Inoffensifs, serviables et honnêtes, voilà qui semble pour le moins naïf. Rendre visible les inférences des modèles, faire qu’ils nous reconnectent aux humains plutôt qu’ils ne nous en éloignent, semblerait bien préférable, tant la polyvalence et la puissance remarquables des LLM rendent impératifs de comprendre et d’anticiper la dépendance potentielle des individus à leur égard. En tout cas, obtenir des outils pour nous aider à saisir à qui ils croient s’adresser plutôt que de nous laisser seuls face à leur interface semble une piste riche en promesses. 

Hubert Guillaud