Lors d’un séminaire organisé par la Direction générale des finances publiques (DGFIP) en novembre 2023, Yannis Tannier, qui pilote les expérimentations d’IA générative à la DGFIP, est revenu sur quelques-unes d’entre elles. Si l’IA est un enjeu majeur, l’administration doit y aller doucement, explique avec prudence le data scientist. Plusieurs cas d’usages sont en test actuellement. L’IA générative est ainsi utilisée pour faire de la synthèse de documents, par exemple pour produire des résumés sur les innombrables amendements disponibles dans la base de connaissance de l’administration, en apportant aux agents des modèles de requêtes. Autre expérimentation : extraire de l’information de déclaration de successions, afin de lister les noms et les liens de filiation d’héritiers (voire d’autres informations comme leurs adresses, leur date de naissance, leur part d’héritage…). La précision n’est hélas pas totale, ce qui pose la difficulté de savoir là où elle n’est pas optimale. Et surtout, elle semble plus difficile à obtenir quand les successions sont complexes.
Autre expérimentation prometteuse, elle, la génération de code. A la DGFIP, c’est pas moins de 5200 agents qui s’occupent de plus de 700 applications. Les retours sur la conversion d’un langage à un autre, ou l’assistance au développement et la génération de commentaires, semblent plutôt performants. Par contre, générer des réponses sur mesure à des demandes spécifiques d’usagers en s’appuyant sur la richesse des bases de connaissances de la DGFIP est pour l’instant moins convaincant. Parfois le modèle improvise, fait référence au mauvais formulaire, voire invente des processus inexacts.
Cette expérimentation devrait s’améliorer en adaptant le modèle utilisé, mais pour l’instant 70% des réponses produites posent problèmes.
Pour le data scientist, ces expérimentations montrent que si le résumé automatisé et l’extraction d’information de documents sont certainement accessibles à terme, le chatbot expert capable de générer des réponses adaptées va nécessiter bien plus de travail pour améliorer ses résultats, notamment pour réussir à le faire taire quand il n’a pas de réponses ainsi que pour trouver les modalités opérationnelles pour établir une chaîne de vérification des réponses. Sans compter son coût opérationnel, l’IA n’est pas si magique qu’il y paraît !
Pour suivre quelques-uns des projets d’IA publics, reportez-vous à all/Ance, l’incubateur dédié aux projets d’IA lancé par la Direction Interministérielle du Numérique (Dinum) qui détaille certains des projets accompagnés par l’incubateur de la Dinum.
Depuis cette présentation publique, l’usage des IA génératives dans les services publics semble progresser. Pour Laurent Blanc, responsable de la plateforme Services publics+, l’utilisation de l’IA générative a permis de réduire les délais de réponses sur la plateforme de questions/réponses de l’administration publique, rapportent Acteurs Publics comme France Inter. Reste que quand on regarde concrètement les premiers résultats en ligne coproduits avec l’IA générative, on se rend compte que les réponses ne sont pas de même nature que celles produites par les agents : celles coproduites par l’IA ressemblent beaucoup à des accusés de réception plus qu’à des réponses précises… Elles donnent l’impression d’être confronté à une forme de répondeur automatique qui ne fournit pas vraiment de réponses.
Albert en ses forces et limites
Lors d’un webinaire organisé par la 27e Région début avril, la designer Estelle Hary éclairait quelques problématiques que rencontre Albert, le LLM sur lequel travaille la Dinum et qui a été rendu accessible à certains agents des Maisons France Services (pour tout comprendre à Albert, voir cet excellent fil Twitter du journaliste Emile Marzolf). Elle pointait quelques difficultés intéressantes auxquelles est confrontée l’expérimentation.
Albert est un grand modèle de langue adapté de Llama 2 de Meta puis de Mistral, qui est réentrainé sur des données administratives pour en faire un modèle spécialisé pour le service public. Il est notamment entraîné sur les fiches de Service-Public.fr, ce qui fait qu’il y a des domaines sur lesquels il ne sait pas répondre, par exemple si on veut l’utiliser pour lui demander des informations sur des dispositifs territoriaux qui ne sont pas recensés dans ces fiches. Il faut alors qu’il sache dire qu’il ne sait pas répondre, ce qui n’est pas facile. Un autre problème encore, c’est la mise à jour du système, notamment parce que la matière administrative évolue constamment. Ainsi, Albert connaît les conditions actuelles d’accès au chômage, mais quand la loi évolue, la question de la mise à jour d’Albert est compliquée car cela nécessite par exemple de lui faire désapprendre ce qu’il sait, explique la designer.
Dans l’expérimentation en cours avec Albert, il a fallu former les agents des maisons France Services au prompt pour qu’ils sachent comment l’interroger avec une certaine efficacité, mais là encore, avec l’évolution des modèles, les manières de faire des prompts évoluent constamment. Dans le cadre de l’expérimentation, il a été demandé aux agents de ne l’utiliser que sur des périmètres qu’ils connaissent afin qu’ils puissent identifier et faire remonter ses erreurs. Dans Albert, ont été mis en place des mécanismes de citation des sources pour permettre aux conseillers de vérifier les informations fournies.
L’expérimentation tente également de produire un score de confiance sur les réponses afin de les améliorer. L’enjeu d’évaluation et d’apprentissage par renforcement avec un retour humain est toujours essentiel pour faire progresser ces systèmes. Au final, prévient la designer, la mise en place d’un système d’IA demande bien souvent la création d’un service dédié pour produire des données, les adapter, les mettre à jour, les corriger… C’est le défi auquel a été confronté la Cour de cassation dans son projet de pseudonymisation des décisions de justice que raconte très bien la chercheuse Camille Girard-Chanudet. Enfin, prévient Hary, la logique probabiliste de l’IA pose une question de fond aux services publics, puisque pour une même question, il peut faire des réponses différentes, ce qui n’est pas sans poser à la fois un enjeu d’égalité d’accès au service public, mais également de responsabilité de ce qui est généré par ces outils.
D’autres exemples récents appellent à la prudence. Air Canada a été tenu responsable de ce qu’affirmait son chatbot, comme d’inventer des remises qui n’existaient pas. Le chatbot a été désactivé ! Depuis octobre, la ville de New York a lancé un chatbot pour fournir des informations sur la création d’entreprise. Problème : il explique aux entrepreneurs d’enfreindre la loi ! En France, pour l’instant, et fort heureusement, aucune administration n’envisage de mettre de chatbots au contact du public.