Les défis très concrets de la mise en oeuvre de l’AI Act

La mise en oeuvre de l’AI Act s’annonce difficile. Les normes en matière d’Intelligence artificielle sont pour l’instant très incomplètes et immatures par rapport à celles d’autres industries. Ce qui risque de rendre la mise en conformité coûteuse et ses applications incohérentes. L’AI Act est voté, mais beaucoup reste à faire !

Hubert Guillaud

Maintenant que l’AI Act européen est voté, il va falloir se confronter à sa mise en œuvre, expliquent les consultants Hadrien Pouget et Ranj Zuhdi de la Fondation Carnegie pour la paix internationale. Reste que les normes en matière d’Intelligence artificielle sont pour l’instant encore très incomplètes et immatures par rapport à celles d’autres industries. Ce qui risque de rendre la mise en conformité coûteuse et ses applications incohérentes. 

L’AI Act a rehaussé les exigences de sécurité que doivent respecter les entreprises avant de commercialiser un produit d’IA en Europe. En observant les normes de secteurs plus établis, le rapport de la Fondation Carnegie tente de montrer comment celles de l’AI Act devraient se concrétiser et pointe certaines lacunes du projet européen. Les auteurs estiment que les règles européennes, pour l’instant, autorisent un large éventail d’interprétation sur ce que doit faire un fournisseur de service IA à risque pour se mettre en conformité et atténuer les problèmes… tout en lui demandant de mettre en place un système de gestion de risques et de se conformer à des normes… qui n’existent pas vraiment.

Des normes floues

Le domaine de l’évaluation du risque repose sur des matrices de risques, rappellent Pouget et Zuhdi, selon leur gravité et leur probabilité. Dans la santé par exemple, avant de commercialiser un produit, on doit évaluer les risques et mettre en place des mesures d’atténuation appropriées pour les éliminer ou les réduire à un niveau acceptable, conformément à l’état de l’art, ainsi qu’assurer le suivi et prendre des mesures supplémentaires si de nouveaux risques apparaissent ou que les estimations initiales les ont sous-estimé. Les agences dédiées, comme l’Agence européenne des médicaments, fournissent des critères clairs pour évaluer la sécurité et l’efficacité des dispositifs médicaux et des médicaments. Cela n’empêche pas ces dispositifs d’être parfois insuffisants. Ainsi, si les normes réglementaires en matière de dispositifs médicaux encouragent les fabricants à inclure divers groupes de populations dans leurs investigations cliniques, ces cadres manquent parfois de spécificité et d’exigences concrètes. Outre la santé et la sécurité, les droits fondamentaux (la Charte de l’EU en comprend une cinquantaine) et la protection des données, les développeurs d’IA doivent également prendre en compte les impacts de leurs systèmes sur la vie privée, la discrimination et les conditions de travail. Évaluer chacun de ces risques est d’autant plus complexe, que les législations nationales en Europe sont variables. Et les normes existantes pour la gestion des risques de l’IA par exemple ne fournissent pas d’indications significatives sur la manière de procéder. « Il va falloir que l’Europe soit plus précise dans la spécification des normes attendues », estiment les auteurs du rapport dans leurs recommandations. Par exemple, la commission européenne pourrait décider que pour les systèmes qui effectuent des évaluations d’emploi, une disparité constante de 20% dans les scores entre les groupes protégés (lié au sexe, à la race et à l’âge) nécessiterait une enquête plus approfondie, mais pour un système déterminant l’accès aux services médicaux, le seuil pourrait être beaucoup plus bas [notons que cette proposition consistant à accepter « 20% » de discrimination à l’emploi, couramment admise est pourtant très problématique, puisqu’elle ne se fonde sur aucune raison et entérine de fait une discrimination. Certains chercheurs estiment d’ailleurs que ce problème pourrait être favorisé par le fait que développeurs et juristes ne parlent pas de la même chose. Les notions de biais algorithmique et d’équité ne recoupent pas les notions juridiques de discrimination et d’égalité. « La loi n’est pas un arbre de décision », rappellent-ils]. 

En ce qui concerne l’atténuation des risques dans des secteurs comme la santé, bien souvent, elle est intégrée dès la conception : des mesures particulières sont adoptées et les usagers sont informés des modalités d’utilisation précises. En matière d’IA, on en est pas là ! Une étude européenne a évalué huit normes prometteuses en matière d’IA et a déterminé que toutes avaient une « maturité et un niveau de détail » moyens ou médiocres et qu’il serait difficile d’évaluer la conformité avec presque toutes. Un rapport de l’Agence des droits fondamentaux de l’UE souligne que les discussions sur l’IA mettent fréquemment l’accent sur la nécessité de données de haute qualité, sans fournir de définitions ou de lignes directrices sur ce que cela signifie vraiment, notamment parce qu’il n’existe aucune manière standardisée de décrire les ensembles de données utilisées par l’IA. 

L’AI Act exige ainsi des solutions qui garantissent la transparence pour permettre aux utilisateurs de comprendre les résultats des systèmes. La norme IEEE définit 5 niveaux de transparence spécifiques et mesurables, mais ils ne sont pas liés à des questions d’évaluation des risques.

Des méthodologies et des évaluations non standardisées

La question de l’amélioration de ces normes est complexe, rappellent les chercheurs. D’abord parce que l’IA n’est pas une technologie unique et que les mesures que l’on pourrait prendre à l’égard de certains systèmes risquent de ne pas pouvoir s’appliquer à d’autres, sans compter que certains systèmes demeurent parfaitement impénétrables : ils produisent des résultats sans qu’on sache exactement comment. Dans ces boîtes noires, les comportements ne sont pas compris par un raisonnement fondé sur des principes, mais évalués par des tests. L’audit des systèmes d’IA manque de métriques d’évaluation. Pour les juristes Petros Terzis, Michael Veale et Noëlle Gaumann, la complexité réglementaire risque de brouiller les lignes entre ce qui est audité et de ce qui est auditable, estiment-ils dans un article de recherche sur l’émergence réglementaire de l’audit algorithmique dans le cadre du Digital Services Act européen et de l’OSA (Online Safety Act), son équivalent britannique. Outre les exigences d’évaluation des risques selon la taille et l’impact des systèmes ou leurs publics, les chercheurs rappellent que les principaux auditeurs seront certainement d’abord et avant tout les grands cabinets de conseils établis (PwC, EY, KPMG, Deloitte… ont tous lancé leur offre d’IA responsable, auxquels il faut ajouter les innombrables startups d’audit comme Chatterbox, Metr, Truera, Arize, Arthur, Hollistic AI, Babl AI, Aporia, Apollo…), au risque de faire peu de cas des chercheurs et des organisations civiles, et au risque que l’audit ne devienne qu’une prestation comme une autre, alors qu’à ce jour ce sont plutôt les révélations des chercheurs, des militants et des journalistes qui confrontent les systèmes à leurs défaillances. 

Le risque est fort que l’indépendance des auditeurs soit difficile à évaluer et à préserver et ce alors que les méthodologies ne sont pas standardisées , et que la pratique de l’audit soit complètement récupérée par l’industrie elle-même pour devenir normative et banale… c’est-à-dire sans conséquence. Au Royaume-Uni, pour s’assurer de la conformité de l’IA a été mis en place un AI Safety Institute qui est chargé de mener une évaluation des risques sur quelques grands modèles de langage. Un rapport de l’Ada Lovelace Institute vient de faire le bilan de cette agence d’audit algorithmique nationale. D’abord, soulignent les auteurs, les méthodes d’évaluation demeurent très imparfaites et se concentrent sur certains risques plutôt que d’autres. Ensuite, ces évaluations dépendent beaucoup des versions et peuvent être remises en compte à chaque évolution de modèles. Mais surtout, le risque n’est pas une propriété inhérente qui peut être évaluée dans le vide. Evaluer un modèle comme GPT-4 ne dit rien de la sécurité et de la conformité des applications qui seront construites à partir de lui. L’Ada Lovelace Institute pointe également la différence avec l’approche que l’on trouve dans le domaine de l’évaluation des médicaments ou des produits de santé. Les organismes de sécurité et d’audits n’ont pas de pouvoirs pour imposer des conditions de transparence sur les données d’entraînements des modèles par exemple, ni pour empêcher une entreprise de publier son modèle, un peu comme si elles ne pouvaient pas refuser l’approbation de la mise sur le marché d’un médicament. Pour l’Ada Lovelace Institute, ces limites montrent que l’évaluation doit s’appliquer aux produits finaux, à l’image des projets que développe l’incubateur IA du gouvernement britannique, via sa Red Box, dédiée à comprendre les risques et limites de ces projets. Et que l’audit nécessite d’être renforcé par une législation pour donner de la force à la régulation, et notamment pour permettre aux autorités de bloquer certains produits, comme la capacité à cloner la voix des individus. 
 
En l’absence d’évaluation standardisées, même évaluer les qualités des différents outils d’IA est difficile, rappelait le journaliste Kevin Rose pour le New-York Times. Sans compter que les méthodes rigoureuses de vérification de sécurité qui ont fonctionné pour les logiciels conventionnels fonctionnent assez mal avec des systèmes qui évoluent sans arrêts. Les voitures autonomes Waymo et Cruise qui ont effectué des millions de kilomètres de tests de sécurité continuent à rencontrer des accidents inacceptables. D’où le fait que dans le domaine de l’IA on valorise plutôt les questions liées à la gouvernance, à la transparence et au contrôle humain sur les spécifications techniques. 

Pour Hadrien Pouget et Ranj Zuhdi, les organismes de normalisation européens vont avoir un gros travail à accomplir pour délimiter et préciser les normes techniques de l’IA en distinguant les différents types d’IA et leurs domaines d’application, ainsi que les méthodes d’atténuations des risques ad-hoc. S’il est difficile d’élaborer des normes claires et précises, alors le régulateur devra s’appuyer sur des auditeurs très compétents pour évaluer les systèmes. 

Les modèles d’IA à usage général, comme GPT-4, qui peuvent servir à des usages multiples sont soumis à des exigences spécifiques alors que leur complexité même rend les normes de sécurité encore plus difficiles. Utilisés dans des conditions spécifiques, on peut imaginer les doter de règles spécifiques, par exemple s’ils sont utilisés pour des entretiens d’embauches, mais il est plus difficile de les cadrer lorsque leurs usages sont ouverts. Les questions d’atténuation des risques de l’IA générale sont intensifiées dans ces modèles, par exemple du fait des très grandes quantités de données qui servent à les former. Les risques sont aussi très élevés en sortie, puisqu’ils peuvent énoncer avec confiance des informations inexactes. En fait, il est probable qu’ils soient très difficiles à évaluer et à cadrer, d’autant qu’il n’existe aucun consensus sur la bonne approche à adopter. Autre problème, les questions de sécurité exigent que les développeurs aient un contrôle sur les données, sur la conception d’algorithmes et leurs évaluations, mais de plus en plus de produits reposent sur des modèles d’IA existants, rendant les développeurs dépendants de l’atténuation des risques des modèles qui nécessite d’améliorer leur documentations que ce soit sur les données d’entraînement, les biais potentiels et les seuils/métriques de performances. La norme de développement de logiciels pour les dispositifs médicaux (ICE 62304) impose aux fabricants d’évaluer la sécurité de tout logiciel intégré et d’ajouter des contrôles spécifiques. Cela signifie que la régulation se fait en cascade, si les grands modèles ne sont pas plus vertueux, le reste de la chaîne ne le sera pas non plus.  

Le risque d’une normalisation ni neutre ni objective

En attendant, rappellent les auteurs, deux initiatives se sont positionnées sur ces enjeux, le Frontier Model Forum et l’AI Alliance, qui cherchent à développer l’IA responsable via des critères et normes partagées.

Le succès de l’AI Act repose sur l’efficacité de la traduction de ces exigences de protection en normes précises et applicables, conclut le rapport de la Fondation Carnegie. Tout l’enjeu consiste à construire des normes détaillées et sûres, mais également assez flexibles pour s’adapter aux différentes caractéristiques des technologies d’IA afin de ne pas laisser les développeurs et les régulateurs dans le flou. 

Reste que la question d’une normalisation que défendent les deux chercheurs fait l’impasse sur ses limites, et notamment le fait que cette standardisation n’est jamais ni neutre ni objective, comme l’explique la juriste Alicia Solow-Niederman. Dans un article de recherche sur le rôle politique des standards, elle rappelle que le fait que les standards soient utilisés comme des outils de gouvernance est compréhensible, car ils permettent de rendre les technologies responsables. Pourtant, les standards sont des constructions sociales comme les autres : le déploiement des normes est une question d’économie politique. La juriste observe par exemple la construction de l’AI Act européen, et souligne qu’elle conceptualise l’IA comme un produit et imagine lui appliquer une approche calquée sur le régime de sécurité des produits européens, qui se traduit par des normes harmonisées : le fournisseur qui se conforme à ces normes se conforme à la loi. Or, si ces initiatives sont initiées par l’acteur public, ce sont les acteurs privés qui sont les premiers contributeurs de la standardisation via les organismes de normalisation. Pour l’UE, l’espoir est qu’en développant des normes très tôt, celles-ci s’imposent à tous. Aux Etats-Unis, par contre, l’acteur public a une fonction bien moins organisationnelle dans la normalisation et les acteurs privés orientent plus nettement encore la construction des normes. Les acteurs privés y développent leurs produits et leurs normes et les imposent contractuellement à leurs clients, privés comme publics. Ici, c’est la voie empruntée (la dépendance au chemin) par les acteurs qui façonne le développement des normes et impose des verrouillages technologiques. Dans un cas comme dans l’autre, les acteurs privés restent au cœur du développement des normes

Le risque d’une réglementation qui ne protège ni les citoyens ni les entreprises

Dans un passionnant article sur le Digital Service Act européen, la chercheuse Rachel Griffin estime que le DSA promeut une gouvernance marchande qui repose sur la transparence, la consultation et la gestion des risques. Trois approches qui sont peu susceptibles de restreindre le pouvoir des entreprises. En validant leur organisation par la publicité et la surveillance, le DSA légitime le « capitalisme de plateforme » monopolistique. Le risque est qu’il entérine les monopoles des plateformes plutôt que de pousser à la démocratisation de leur gouvernance, explique la chercheuse en estimant que le DSA est d’inspiration néo-illibéral, promouvant une régulation marchande augmentée de vastes possibilités de censure d’État. Une lecture qu’on pourrait certainement étendre à l’AI Act également. On parle beaucoup de réglementer la techno, mais bien moins de réguler les monopoles qu’elle étend, explique un rapport de l’association Common Wealth. Mêmes constats pour Max von Thun, directeur de l’Open Market Institute, un think tank bruxellois qui s’oppose aux monopoles, pour qui la question des monopoles que va permettre le déploiement de l’IA risque d’être le parent pauvre des régulations, même si l’AI Act charge en obligations les plus grandes plateformes et les plus grands systèmes. Pour lui, l’AI Act donne la priorité à la mise en place de garde-fous pour tenter d’empêcher les abus, sans beaucoup se soucier de l’ampleur et du pouvoir des acteurs réglementés. 

Dans l’analyse radicale qu’elle fait de l’AI Act, la Quadrature du Net ne dit pas vraiment autre chose que ce que disent, en termes plus mesurés, Hadrien Pouget et Ranj Zuhdi. En soulignant combien l’ensemble de règles se révèle flou et complexe, la Quadrature explique elle aussi, que l’AI Act est d’abord fondé sur l’auto-régulation et que les innombrables dérogations qu’il propose, risquent surtout de permettre aux entreprises de déterminer elles-mêmes le niveau de risque de leurs produits, d’autant qu’elles vont déterminer elles-mêmes les pratiques de standardisation dans des organismes de standardisation dont elles participent activement. Alors qu’on pouvait attendre une proscription de la notation sociale, de la reconnaissance faciale ou émotionnelle, les dérogations n’obligent qu’à des obligations procédurales qui risquent d’avoir bien peu d’impact, autre que quelques amendes quand les systèmes seront jugés trop dysfonctionnels. Quand on cherche dans cet épais document législatif ce qui permettra de protéger les citoyens, on trouve surtout des règles qui vont permettre à l’IA de se déployer. Au final, il est probable que l’AI Act actuellement, par son flou et sa complexité, génère beaucoup d’incertitudes et ne protège pas vraiment les organisations qui déploient des systèmes d’IA des amendes que leurs imposeront les régulateurs en cas de défaillances manifestes, ni ne protège les citoyens des risques et discriminations que ces systèmes déploient. L’AI Act (comme le DSA) ne reconnaît pas de droits aux utilisateurs comme agents de la régulation. 

La portée de l’AI Act reste encore largement à construire.