Dans la revue Big Data & Society, deux chercheurs finlandais, Antti Rannisto et Marta Choroszewicz, ont suivi le déploiement d’un outil d’aide à la décision à base d’IA générative dans une administration publique. Ils montrent comment l’équipe construit un discours et un cadre de légitimation et de justification de son déploiement à mesure que l’outil est développé, visant à préserver l’outil des critiques (notamment pour ses problèmes d’exactitude, de précision et de cohérence) et le rendant peu à peu irrésistible pour les acteurs influents de l’organisation.
L’outil étudié visait à aider les agents chargés des réclamations à identifier les directives pertinentes et actualisées nécessaires à la prise de décision concernant les réclamations des usagers. Les réponses de l’outil étaient accompagnées de liens vers les sections pertinentes la base de documents de l’administration, permettant ainsi aux agents de valider une réponse ou de rechercher des informations complémentaires. Techniquement, l’outil reposait sur une base de données documentaires, un moteur de recherche et un LLM pour la génération des réponses.
Les deux chercheurs montrent que les innovateurs, l’équipe en charge du déploiement et de la configuration de l’outil, accomplissent surtout un travail politique pour influencer et convaincre les comportements des agents. Derrière le déploiement technique se met en place d’abord un régime de justification qui vise à protéger le déploiement des contestations. Les justifications émergent et évoluent à mesure que l’outil évolue, rapportent les chercheurs, mais ont une fonction spécifique : « détourner l’attention des promesses non tenues de l’outil », protéger les lacunes de l’outil et permettre au déploiement de se poursuivre.
Ainsi le déploiement commence par se justifier sur sa promesse d’efficacité, sur la pertinence, le désir et la volonté d’innover. Les phases d’expérimentations sont renforcées par une communication dédiée, alors que les tests montrent rapidement les défaillances et limites de l’outil proposé.
Les tests suivants ont alors visé à améliorer la performance de l’outil, mais sans y parvenir, recentrant l’implication active à la seule équipe chargée de l’innovation. A mesure que l’outil se déploie et déçoit, les cadres de justification se déplacent : on passe des espoirs d’efficacité, à la valorisation du processus d’innovation, puis à la valorisation de l’état d’esprit de l’innovation, comme si à mesure que le déploiement déçoit on n’en retenait plus que le mouvement. La promotion du test rapide, de l’apprentissage continu a été particulièrement mobilisée pour poursuivre les développements. Les développeurs ont par exemple promu régulièrement l’amélioration des réponses correctes de l’outil (passant de 70%, à 75% puis à 80%…) sans répondre aux critiques qui questionnaient cette précision pour savoir si elle était suffisante pour être intégrée dans les flux de travail des agents ou pour déterminer la pertinence et la réalité de cet indicateur. A mesure que l’outil se déployait sans répondre aux attentes, ses promoteurs ont développé un argumentaire renvoyant les erreurs à « l’incapacité des agents à interagir efficacement avec l’outil en prétextant qu’ils ne parvenaient pas suffisamment à mettre à jour leurs méthodes de travail ».
Une autre justification s’est également développée avec le temps, présentant le développement de l’outil comme pionnier pour utiliser l’IA générative au service du bien commun, creusant une fracture entre l’innovation et le travail de terrain. Un peu comme si le processus d’innovation se justifiait d’autant plus que les retours critiques s’enkystaient et que l’innovation faiblissait en rythme et ce alors que de plus en plus d’agents souhaitent le tester pour se rendre compte de son efficacité ou de son inefficacité. Ce que décrivent les chercheurs dans le déploiement de l’outil, c’est que ses justifications se déploient sans lien direct avec ses résultats.
« Un an après le lancement du processus d’innovation de l’outil d’IA, son fonctionnement restait incohérent et imprécis, et ses opérations demeuraient largement opaques – ambiguës, incertaines et incontrôlables – même pour les innovateurs techniques les plus chevronnés ». Pourtant, ceux-ci sont restés farouchement déterminés à poursuivre le développement de l’outil en vue de sa mise en production et de son déploiement à grande échelle, car les promesses inscrites maintenaient une forte dynamique en faveur du projet. En fait, lorsque les tests ont révélé l’inaccessibilité de l’objectif initial (c’est-à-dire avoir un outil très fiable pour que les agents puissent répondre aux usagers), les innovateurs en charge du déploiement ont proposé de nouvelles pistes de développement et d’expérimentation, au lieu de considérer les résultats comme un motif d’abandon. Le sentiment d’être sur une courbe d’apprentissage et d’amélioration a également découragé les critiques ouvertes de l’outil lui-même et a recentré l’attention sur les facteurs organisationnels et liés aux utilisateurs susceptibles d’affecter ses performances. « Le fait que l’outil n’ait pas tenu ses promesses a été normalisé et présenté comme une étape normale du processus. »
La critique de l’intégration d’un LLM, qui semblait la principale raison pour laquelle l’outil ne tenait pas ses promesses, par rapport à l’amélioration de la base de données de réponses et de connaissances, a été largement ignorée par les responsables et les personnes chargées du projet. La visibilité du processus d’innovation, vantant l’agilité, l’expérimentation, l’itération… a supplanté les limites de l’outil, qui sont pourtant apparues assez tôt.
Antti Rannisto et Marta Choroszewicz estiment en conclusion que le battage médiatique sur l’IA générative a intensifié les efforts d’innovation et suscité un optimisme débridé, conduisant à prolonger le projet pour son caractère exemplaire promettant d’optimiser l’administration publique.
Pour eux, cela montre surtout que l’innovation est un processus hautement politisé. L’évolution des justifications ont maintenu le processus en mouvement, malgré l’absence de résultats pertinents. L’échec démontre « l’aspect constructiviste du technosolutionnisme, c’est-à-dire un processus où les problèmes sont redéfinis pour s’adapter à une solution technologique préexistante, faisant peser la charge de l’adaptation sur les utilisateurs et les organisations plutôt que de remettre en question l’outil lui-même.»
Plutôt que de considérer les défaillances répétées comme des motifs d’arrêt des travaux ou de réexamen des choix technologiques pris, l’évolution des cadres de justification a empêché que les défaillances remettent en cause la valeur perçue de l’outil et ont même parfois transformé les échecs techniques en signes de progrès.
Trop souvent, les échecs sont perçus comme des étapes normales d’un « processus d’apprentissage », ce qui a tendance à rendre les échecs moins visibles et plus difficiles à corriger… Et c’est certainement encore plus net dans le domaine de l’innovation en IA générative, comparativement aux systèmes d’IA plus déterministes, où les architectures système sont plus transparentes et les indicateurs de performance mieux définis en amont. Pour les chercheurs, les résultats de cette enquête expliquent comment les promesses technologiques ont fait de l’outil un objet imaginaire irrésistible et ont maintenu le processus d’innovation en mouvement malgré ses défaillances.
Cette étude est riche d’enseignement, tant elle semble décrire derrière son cas particulier les échecs d’innombrables projets d’intégration de l’AI dans l’administration publique ou dans les organisations privées. Elle permet de mieux saisir les raisons des échecs de nombre de déploiements de l’IA générative que pointait par l’exemple, une étude du MIT, en montrant « 95% des projets pilotes d’IA générative dans les entreprises échouent ». Promesses inadaptées, déceptions des déploiements, justification par et pour l’innovation… permettent de comprendre que les projets mal partis n’arrivent bien souvent nulle part.
On pourrait tirer bien d’autres leçons de cet exemple. Notamment sur l’importance de prendre en compte les critiques, plutôt que de les silencier.
Stream "Ça (dys)fonctionne"
- ↪ La reconnaissance faciale, en toute impunité
- ↪ Le biais anti-humain : des préférences des IA pour les contenus IA
- ↪ Le coût caché de l’IA c’est la vérification
- ↪ Une histoire des rapports de l’Etat au logiciel libre
- ↪ Résister à l’empire des Gafams
- ↪ Une bulle… de pouvoir
- ↪ Le produit toxique des Big Tech ne sont pas les réseaux sociaux…
- ↪ Palantir, l’entreprise métapolitique
- ↪ L’épuisement de l’IA
- ↪ L’IA, ce piège de la responsabilité