Melanie Mitchell est certainement la plus pédagogue des spécialistes de l’IA. Son livre, Intelligence artificielle, triomphes et déceptions (Dunod, 2021) est une excellente ressource pour comprendre l’histoire et le fonctionnement de l’IA, tout comme sa newsletter. Dans sa récente chronique pour le magazine, Science, elle revient sur la capacité de l’IA à “raisonner”. Pour cela, elle prend un petit exemple logique simple. “Julia a deux sœurs et un frère. Combien de sœurs son frère Martin a-t-il ?”. Le résoudre demande à chacun de nous quelques secondes d’attention. Mitchell a soumis cette énigme à plusieurs reprises à la version la plus récente de GPT-4 (4o), qui lui a donné la mauvaise réponse à chaque fois, affirmant que Martin avait deux sœurs. Pour remédier à ce type de problème, les grandes entreprises de l’IA développent de nouveaux systèmes qu’elles appellent les Grands modèles de raisonnement (Large reasoning models, LRM).
Quand on soumet cet exemple logique à un LRM, comme les modèles o1 et o3 d’OpenAI, Claude d’Anthropic, Gemini 2.0 Flash Thinking Experimental de Google et le modèle R1 de l’entreprise chinoise DeepSeek… ces modèles déploient une chaîne de pensée qui énoncent un processus de raisonnement apparemment plausible. o1 d’OpenAI décompose sa réponse : “1. Julia a deux sœurs. Cela signifie qu’il y a trois filles au total (Julia + deux autres). 2. Julia a également un frère, prénommé Martin. 3. Au total, il y a quatre frères et sœurs : trois filles et un garçon (Martin). 4. Du point de vue de Martin, ses sœurs sont toutes les trois des filles (Julia et ses deux sœurs). 5. Martin a donc trois sœurs.”… Ce qui ressemble beaucoup à un raisonnement humain que chacun d’entre nous pourrait tenir pour résoudre l’énigme. On comprend alors que ces modèles soient en train de devenir le corps de l’offre commerciale des entreprises d’IA… Reste à savoir si ces modèles “réfléchissent et raisonnent vraiment, ou s’ils font juste semblant” ?
Mitchell rappelle que les LRM sont construits sur des LLM. Les LLM sont pré-entraînés pour prédire une partie de mots (un token ou jeton) dans une séquence de texte. Pour devenir LRM, “le modèle est ensuite post-entraîné, c’est-à-dire entraîné davantage, mais avec un objectif différent : générer spécifiquement des chaînes de pensée, comme celle générée par o1 pour l’énigme des “sœurs”. Après cette formation spéciale, lorsqu’un problème lui est posé, le LRM ne génère pas de jetons un par un mais génère des chaînes entières”. Pour le dire autrement, les LRM effectuent beaucoup plus de calculs qu’un LLM pour générer une réponse. D’où le fait qu’on parle d’un progrès par force brute, par puissance de calcul, avec des systèmes capables de tester en parallèle des milliers de réponses pour les améliorer. “Ce calcul peut impliquer la génération de nombreuses chaînes de réponses possibles, l’utilisation d’un autre modèle d’IA pour évaluer chacune d’elles et renvoyer celle la mieux notée, ou une recherche plus sophistiquée parmi les possibilités, semblable à la recherche par anticipation que les programmes de jeu d’échecs ou de go effectuent pour déterminer le bon coup”. Quand on utilise un modèle de raisonnement, l’utilisateur ne voit que les résultats de calculs démultipliés. Ces modèles qui fonctionnent surtout selon la méthode d’apprentissage par renforcement non supervisé sont récompensés quand ils produisent les étapes de raisonnement dans un format lisible par un humain, lui permettant de délaisser les étapes qui ne fonctionnent pas, de celles qui fonctionnent.
Un débat important au sein de la communauté rappelle Mitchell consiste à savoir si les LRM raisonnent ou imitent le raisonnement. La philosophe Shannon Valor a qualifié les processus de chaîne de pensée des LRM de “sorte de méta-mimétisme”. Pour Mitchell, ces systèmes génèrent des traces de raisonnement apparemment plausibles qui imitent les séquences de “pensée à voix haute” humaines sur lesquelles ils ont été entraînés, mais ne permettent pas nécessairement une résolution de problèmes robuste et générale. Selon elle, c’est le terme de raisonnement qui nous induit en erreur. Si les performances de ces modèles sont impressionnantes, la robustesse globale de leurs performances reste largement non testée, notamment pour les tâches de raisonnement qui n’ont pas de réponses claires ou d’étapes de solution clairement définies, ce qui est le cas de nombreux problèmes du monde réel.
De nombreuses études ont montré que lorsque les LLM génèrent des explications sur leurs raisonnement, celles-ci ne sont pas toujours fidèles à ce que le modèle fait réellement. Le langage anthropomorphique (puisqu’on parle de “raisonnement”, de “pensées”…) utilisé induit les utilisateurs en erreur et peut les amener à accorder une confiance excessive dans les résultats. Les réponses de ces modèles ont surtout pour effet de renforcer la confiance des utilisateurs dans les réponses, constate OpenAI. Mais la question d’évaluer leur fiabilité et leur robustesse reste entière.
Stream "Ça (dys)fonctionne"
- ↪ Apprêtez-vous à parler aux robots !
- ↪ Le ChatGPT des machines-outils
- ↪ L’automatisation est un problème politique
- ↪ De « l’Excellisation » de l’évaluation
- ↪ Les trois corps du lithium : le géologique, le technologique et le psychique
- ↪ Red-teaming : vers des tests de robustesse de l’IA dans l’intérêt du public
- ↪ Data for Black Lives
- ↪ LLMO : de l’optimisation de marque dans l’IA générative
- ↪ IA au travail : un malaise persistant
- ↪ Atténuation des risques, entre complexité et inefficacité