Les LLM dégradent profondément vos documents

Hubert Guillaud

On avait déjà attiré l’attention sur les grandes limites de l’IA pour produire des synthèses, au risque de valoriser certaines informations sur d’autres. Microsoft Research vient de publier un article et un benchmark : ils ont proposé 52 documents à 19 modèles concurrents dont les modèles de pointe. Chaque modèle reçoit un document et une série d’instructions de modification, une vingtaine maximum. A la fin de la série d’instruction, 25% à 50% du contenu se retrouve dégradé (analyse faite en comparant simplement les contenus des documents). Si on étend encore les instructions à une centaine, la courbe de la dégradation continue. Les chercheurs parlent de « déclin monotone ». Ils constatent également que les performances à court terme ne prédisent pas la fiabilité à long terme. « Deux modèles qui semblaient presque identiques après deux interactions (91,5 % contre 91,1 %) ont divergé de façon spectaculaire au fil du temps (48,3 % contre 64,1 %). » La dégradation est parfois brutale. Sur les 50 domaines d’activité testés auxquels ils ont confié des documents pour des tâches d’édition, le seul domaine qui fonctionne reste le code python : la dégradation est très faible, les contenus restent stables sur 17 des 19 modèles, à 98%. Mais par exemple, sur un tableur, seulement 50% des lignes d’origine sont encore présentes après 20 itérations : l’ordre des lignes, les noms de colonnes et le nombre de lignes sont plus dégradées encore.  

La démonstration permet de montrer que l’usage des LLM risquent de n’être fonctionnels que pour le code, car le code à une définition mécanique, c’est-à-dire qu’il existe une spécification lisible par machine permettant de vérifier la sortie (mais la démo montre que quand il s’agit de structure des bases de données SQL, les résultats sont déjà beaucoup moins parfaits). « Partout où la correction exige de la compréhension, les modèles s’effondrent », explique le développeur norvégien Christian Ekrem sur son blog. Pire : la corruption est invisible par conception, « silencieuse »

« Le plus inquiétant, c’est la manière dont ces erreurs se produisent. Elles sont rares, mais graves. Le modèle ne transforme pas votre document en charabia. Il y apporte de petites modifications, assurées (!), qui paraissent inoffensives au premier coup d’œil. Un détail déplacé. Une précision omise. Un sens subtilement altéré. Une phrase réorganisée pour en modifier l’ordre. Il faudrait lire attentivement l’ensemble du document, en le comparant à l’original, pour s’en apercevoir. Et personne ne le fait. »

Dans vos slides, votre « environ 30% » va devenir « 30% »… puis « 20% ». Dans un contrat, « sous certaines conditions » s’efface. « Après signature » devient « avant signature »… Non seulement les erreurs s’accumulent, mais elles interagissent : « une corruption précoce modifie le contexte, ce qui décale les résultats suivants, et ainsi de suite ». Vous continuez à travailler sur une version corrompue qui ne dit déjà plus ce que vous pensiez. « Si cela ne vous terrifie pas, je doute que ayez déjà travaillé avec des documents importants. (…) Lorsque vous déléguez la maintenance documentaire à un LLM, la théorie meurt doublement. Premièrement : vous n’avez pas acquis la compréhension, car vous avez délégué au lieu de vous impliquer directement dans le sujet. Deuxièmement : le LLM a insidieusement altéré le document lui-même. Vous vous retrouvez donc sans modèle mental ni représentation écrite précise. Vous avez, pour ainsi dire, perdu à la fois la carte et le territoire. »