Open source, l’IA ?

On parle beaucoup des données d’entraînements de l’IA générative, mais sans exactement comprendre ce que ces données d’entraînement recouvrent. Et pour cause : les grands modèles de l’IA générative ne communiquent pas sur les données d’entraînements qu’ils utilisent et, du fait de la taille de ces jeux de données, la compréhension de leurs failles et limites, est difficile à saisir. Cette semaine, on vous invite à saisir les limites de l’IA dite « open source » en regardant comment ces jeux de données sont utilisés et comment ils agissent.

Mettez votre casque de spéléologue et plongez dans une des grandes bases d’images qui façonnent l’IA, Laion 5B !

Hubert Guillaud

Les progrès ultrarapides de l’IA semblent de plus en plus reposer sur l’open source, c’est-à-dire sur le fait que des milliers de personnes participent à sa conception et que les progrès des uns puissent être rapidement assimilés pour renforcer le progrès des autres. L’open source semble même promettre de devenir la principale modalité de régulation des IA, produisant une gouvernance de facto, purement technique, comme s’en inquiétait le chercheur Bilel Benbouzid il y a quelques mois – au risque de dévitaliser toutes les autres modalités de gouvernance disponibles !

Le problème, c’est que cette approche par l’open source relève bien plus d’un mode de collaboration distribué que de la définition canonique de l’open source. Elle repose sur une définition mouvante, changeante, à géométrie variable, estime le journaliste scientifique Edd Gent pour la Technology Review. Chaque acteur semble pouvoir adapter le concept à ses propres besoins et, plus que permettre les contributions d’innombrables acteurs, l’open source semble de plus en plus consolider la domination des principaux acteurs du secteur. Le problème n’est pas les grands principes fondamentaux de l’open source, balisés depuis longtemps, que leurs applications pratiques. La plupart des grands acteurs de l’IA publient leurs modèles en open source, enfin, sur le papier… Car ces modèles sont-ils vraiment en open source ? Llama 2 de Meta et Gemini de Google, sont tous deux publiés avec des licences qui restreignent ce que les utilisateurs peuvent faire avec ces modèles, ce qui est un anathème vis-à-vis des principes de l’open source, qui interdit l’imposition de toute restriction basée sur les cas d’utilisation. Si les modèles sont accessibles et réutilisables, nombre d’informations sur leurs fonctionnements ne le sont pas, comme les données d’entraînements, les poids donnés à ces données ou encore les mesures prises pour atténuer leurs biais ou leurs réponses

Le concept de l’open source a été conçu pour garantir que les développeurs puissent utiliser, étudier, modifier et partager des logiciels sans restrictions. Mais ces concepts clés ne se traduisent pas parfaitement du logiciel à l’IA, explique Stefano Maffulli de l’Open source initiative (OSI), notamment du fait de la très grande imbrication des systèmes entre eux. L’un des grands obstacles à la publication ouverte est lié aux grands nombres d’ingrédients qui entrent dans la composition des modèles d’IA actuels, qui peuvent aller du code source, à l’accès au modèle entraîné, à ses données d’entraînement, aux codes utilisés pour prétraiter ces données… et plus encore à des traitements provenant d’autres IA. C’est un peu « comme si on avait défini des libertés fondamentales, sans que les mécanismes qui permettent d’exercer ces droits ne soient clairs ». Pour l’instant, l’accès aux modèles d’IA générative alimente l’innovation, mais si les grandes entreprises changent de politique, elles pourraient refermer ces accès et impacter toutes les applications qui reposent sur ces modèles.

Ouvert, fermé, semi-ouvert… mais qu’attend-on de l’IA open source ?

Dans ces accès plus ou moins ouverts, toujours partiels, les données constituent de loin le plus gros point de friction. Toutes les grandes sociétés d’IA ont simplement publié des modèles pré-entraînés, sans donner accès aux ensembles de données sur lesquels ils avaient été formés. Ce qui restreint sérieusement les possibilités de modification et d’étude des modèles et les déqualifie pour être qualifié d’open source.

L’accès à des données de formation de haute qualité et ouvertes constitue à la fois le goulot d’étranglement de la recherche en IA et l’avantage concurrentiel de chaque modèle. Cette conception restrictive de l’open source assure à la fois une forme de bonne réputation et de l’autre, permet à ces entreprises d’économiser des milliards en coûts de développement tout en permettant d’améliorer la qualité de leurs systèmes en développant des écosystèmes puissants autour de leurs solutions, comme le pointaient récemment des économistes de Harvard, à l’image d’Android de Google qui a permis à l’entreprise d’obtenir une position dominante dans le domaine du smartphone. L’open source permet de standardiser très rapidement les développements et facilite l’intégration de nouvelles solutions. 

Sarah Myers West, codirectrice de l’AI Now Institute, rappelle que la plupart des projets d’IA open source ne sont pas très ouverts, même si des barrières structurelles plus profondes, notamment en terme de puissance économique des acteurs, de quantité de données ou de puissance de calcul entrent également en compte. Pour la chercheuse, il y a également un manque de clarté sur ce qu’on attend de l’IA open source : est-ce de renforcer la sécurité ? La responsabilité ? De favoriser l’écosystème ? La concurrence ? Ou le monopole des plus grands acteurs ?…  

Pour l’OSI, les questions sur l’utilisation ne doivent pas concerner la communauté open source. Pourtant, le débat est bien là. Penser que la technologie est neutre du moment qu’elle est open source alors que ses enjeux, comme l’éthique, sont hors de portée des principes de l’open source, tient du mythe explique Zuzanna Warso, responsable de la recherche à Open Future.  

En 2022, des chercheurs ont introduit les licences d’IA responsables (RAIL) qui sont similaires aux licences open source, mais incluent des clauses pouvant restreindre des cas d’utilisation spécifique, explique Danish Contractor qui a œuvré à leur mise en place. 28% des modèles d’IA open source utiliseraient les licences RAIL. La licence Google attachée à Gemmi énumère également des cas d’utilisation interdits. Le Allen Institute for AI a développé des licences ImpACT qui restreignent la redistribution des modèles et des données en fonction de leurs risques potentiels… Avec le danger que la multiplication de licences spécifiques génèrent des systèmes incompatibles entre eux et freinent l’ouverture actuelle…   

Le débat n’est pas sans rappeler celui sur la démultiplication des licences libres qu’on avait évoqué il y a quelques années, qui interrogeait déjà l’éthique comme l’économie du libre.  

Suite à un atelier sur la responsabilité des modèles ouverts, un récent travail d’un aréopage de chercheurs s’est penché sur l’impact social de l’ouverture des modèles de fondation. Selon ces chercheurs, les risques liés à l’utilisation de ces modèles proviennent principalement du fait que les développeurs abandonnent le contrôle sur qui peut les utiliser lorsqu’ils sont publiés en open source. Ils proposent de les analyser selon une grille des risques potentiels et invitent leurs développeurs à clarifier les responsabilités entre les développeurs et les utilisateurs de ces modèles et les régulateurs à accélérer sur l’évaluation des risques.  

Le risque, à défaut de publier leurs données d’entraînements, c’est que les règles de fonctionnement se démultiplient selon les outils, selon des modalités plus translucides que transparentes, à l’image d’OpenAI, qui a dévoilé récemment certaines des règles de fonctionnement de son chatbot qui tiennent plus de règles de comportements pour ceux qui l’utilisent comme pour le chatbot… Par exemple, afin qu’il ne donne pas de solutions toutes faites, mais guide l’utilisateur pour l’inciter à les trouver lui-même. Bref, l’enjeu de l’open source se brouille à mesure que celle-ci devient de plus en plus une modalité de publication en clair-obscur qu’une assurance de transparence totale et entière.

Le noeud gordien des données d’entraînement

L’enjeu de l’ouverture des données d’entraînement semble rester au cœur du problème, car tant qu’on ne sait pas sur quoi s’entraînent les modèles, difficile de saisir leurs lacunes. 

Si aucun modèle d’IA n’a pour l’instant listé précisément depuis quelles données leurs modèles sont formés, l’on sait qu’une importante ressource pour plusieurs d’entre eux (notamment pour Google et Meta) repose sur Common Crawl, un répertoire de données géant qui se présente comme « libre et ouvert ». Le problème, c’est que nombre de contenus de Common Crawl ne sont ni libres ni ouverts, mais scrappés, aspirés depuis l’internet sans avoir obtenu le consentement des acteurs qui les ont produits. Dans cet immense répertoire du web, on trouve à la fois Wikipédia, de grands sites de presse ou des livres piratés… Si le droit d’auteur n’y est pas respecté, c’est parce que sous couvert du « fair use » américain – cet usage raisonnable des contenus soumis au droit d’auteur – le droit d’auteur comporte des exceptions, comme celui de pouvoir utiliser des contenus sous droits pour en produire autre chose mais sans y donner accès… Ce qui laisse à penser que, pour l’instant, le droit d’auteur n’est pas vraiment un obstacle au déploiement l’IA. C’est cet « usage raisonnable » que les éditeurs d’IA mobilisent pour capter des contenus sur lesquels ils n’ont pas les droits, même si on constate désormais que pour se prémunir et s’assurer de résultats à jour, les acteurs de l’IA générative se mettent à proposer des compensations financières aux éditeurs de presse, notamment, pour accéder à des contenus à jour et de qualité, permettant d’améliorer les réponses de leurs IA.

Dans une enquête approfondie sur Common Crawl, la fondation Mozilla rappelle que ce scrapping d’internet est né en 2007 avec pour ambition de mettre à disposition un immense répertoire comme seules les grandes entreprises du net avaient alors accès. Le but de Common Crawl n’était pas de produire une IA responsable, mais simplement de fournir des données massives. Ainsi, Common Crawl ne supprime pas les discours de haine qu’il amasse, ni les contenus sous droits… Il moissonne sans aucune autre préoccupation. Common Crawl ne contient ni l’intégralité du web ni même un échantillon « représentatif » de celui-ci. Sa couverture linguistique est très anglophone et un nombre croissant de domaines refusent désormais leur indexation (comme Facebook ou le New York Times, même si on trouve des versions anciennes du New York Times dans Common Crawl). Si on cherche à l’utiliser comme source pour former une IA générative, Common Crawl doit être utilisé avec prudence et beaucoup utilisent des versions filtrées ou produisent des filtres – trop souvent simplistes… Pour Mozilla, Common Crawl devrait pourtant travailler à mieux mettre en évidence les limites et biais de sa base. Mozilla invite d’ailleurs les créateurs d’IA à travailler plus ouvertement sur les questions de filtrages de données qui se font trop souvent à la serpe.

Image : « Des données d’entraînements pour le prix d’un sandwich », l’analyse de l’impact de Common Crawl par Mozilla.

Comme le montrent les limites de Common Crawl, l’enjeu à produire un répertoire de données d’entraînement libre et ouvert reste entier. Le lancement récent de Common Corpus, un corpus de textes pour l’IA relevant entièrement du domaine public, coordonné par la startup française Pleias, apporte enfin une base de données d’entraînement responsable, rapporte Wired. Certes, le modèle ne donne pas accès à des contenus récents puisque ses contenus de sources libres de droit, mais cela pourra être ajouté par des accords de gré à gré avec des éditeurs, voire des accords de gestion collective avec des représentants de la presse ou de l’édition. 

La question de la transparence des données d’entraînement progresse donc… à petit pas, sans que le législateur ne se soit hélas saisi de cette demande récurrente pour l’imposer. Mais même en imposant la transparence des données d’entraînement, il faut comprendre que ce qu’elles représentent n’est pas si simple à faire parler.

Comprendre les limites des données d’entraînement : l’exemple de Laion-5B

Le programmeur et data journalist Christo Buschek et l’artiste Jer Thorp ont publié une analyse dans une forme très visuelle de l’un des jeux d’entraînement phare de l’IA générative : la base d’images Laion-5B. Laion-5B est un très grand ensemble (5B signifie 5 billions c’est-à-dire 5 milliards) open source d’images légendées de texte extraits d’Internet, conçu pour les grands modèles d’IA. Il a été publié en 2022 par Laion, une organisation allemande à but non lucratif. Midjourney et Stable Diffusion, deux des grands modèles de l’IA générative d’images, sont, par exemple, en partie entraînés sur Laion-5B (même si on ne connaît pas toutes les sources de leurs données d’entraînement) et les contenus qui forment Laion-5B sont en partie extraits de Common Crawl. 

La base d’image de Laion-5B contient donc des images en provenance du web, mais certains sites web y sont plus représentés que d’autres. C’est le cas de Pinterest par exemple, qui propose 155 millions d’images (avec leur légendes), soit environ 1/40e des contenus de la base. 140 millions d’images (2,4%) viennent de Shopify, la plateforme pour créer des sites de commerce en ligne. 72 millions viennent de SlidePlayer, une plateforme de partage de présentations PowerPoint. Si ces sites sont très représentés dans Laion, c’est parce qu’ils hébergent beaucoup d’images et également parce que leurs images sont souvent décrites, via des légendes ou la balise ALT, une balise de description des images initiée pour améliorer l’accessibilité des sites web en permettant d’avoir une description de celles-ci pour ceux qui ne peuvent pas les voir. On estime que moins de 40% des images sur le web ont cette balise renseignée, mais pour ces 3 sites, le pourcentage est bien plus élevé (SlidePlayer ajoute des balises ALT en utilisant les textes des présentations, Pinterest pousse ses utilisateurs à renseigner leurs images pour gérer leurs collections et sur Shopify, les vendeurs les renseignent pour améliorer leur référencement). Reste que ces descriptions n’en sont pas toujours, on le comprend avec l’exemple de SlidePlayer qui automatise une description d’image avec du texte qui ne lui correspond pas nécessairement. « La balise ALT décrit bien plus ce que le propriétaire du site veut que l’algorithme lise de son image que ce que les humains y voient », soulignent Buschek et Thorp. Par exemple, dans Shopify, la description d’une image de lunettes va avoir tendance à décrire le produit, plus que la personne qui les porte. Au final, ces descriptions contiennent peu d’informations sur la façon dont les humains voient le monde et bien plus sur la façon dont les moteurs de recherche voient le monde. Il s’agit d’ensembles de données fortement façonnés par les logiques commerciales. 

Image : Le texte de la balise ALT qui décrit l’image de gauche extraite d’un magasin de Shopify ne décrit pas vraiment l’image… Il balise uniquement le produit « Lunettes de soleil en forme de cœur, maillots de bain Chynna Dolls ». Image extraite de l’analyse de Laion par Christo Buschek et Jer Thorp.

Un élément clé de la construction de LAION-5B consiste à sélectionner des images et des légendes associées dans Common Crawl, ou l’attribut ALT correspondrait le plus au contenu de l’image. Pour cela, les développeurs de Laion ont utilisé un réseau neuronal d’OpenAI, CLIP, qui permet d’obtenir un score de similarité entre l’image et sa balise – ce score de similarité étant lui-même produit depuis une comparaison avec des images légendées d’ImageNet, un des projets fondateurs de l’IA.  

Rappelons qu’ImageNet initié dès 2006 par celle devenue la responsable de l’IA à Stanford, la professeure Fei-Fei Li, a été la première grande base de données d’images labellisées par des travailleurs du clic grâce à l’utilisation du Mechanical Turk d’Amazon, selon des catégorisations réductionnistes et problématiques, comme le dénonçait la chercheuse Kate Crawfordmontrant que les descriptions d’images regorgeaient de stéréotypes et d’absurdités.  

Buschek et Thorp ont alors regardé les images exclues et incluses par Laion. Visiblement la similarité est forte quand il y a un texte dans l’image qui correspond à la balise (comme pour l’image d’un panneau « stop » avec une balise de texte correspondant). Comme souvent dans les distributions, les scores de similarité sont très inégalement répartis et un petit changement dans la limite de similarité basse choisie par Laion pour incorporer ou non des images conduit à ajouter ou supprimer des centaines de millions d’images. Dans ce score de similarité entre le texte et l’image, l’essentiel des images ont en fait une assez mauvaise note. Très peu d’images obtiennent un score au-dessus de 0,5 (sur un score allant de -1 à 1) : cela n’arrive que pour 22 645 images sur 5,85 milliards ! Les taux de similarité retenus semblent surtout l’avoir été pour donner de l’ampleur à la base, plus que pour s’assurer de la qualité des descriptions. Laion reste un jeu de données purement construit pour l’IA générative, massif plus que de qualité. Les balises descriptives des images demeurent donc souvent de très mauvaise qualité, comme si l’important était surtout que la balise ALT contienne du texte.  

Ce que montrent ces exemples en tout cas, c’est le rôle majeur de l’intrication des modèles entre eux : Laion est lui-même créé sur des modèles qui ne sont ni ouverts ni inspectables, comme le langage detector de Google (qui permet de détecter la langue d’un texte) ou le Clip d’OpenAI. « Les omissions, les biais et les angles morts de ces modèles et ensembles de formation empilés façonnent tous les nouveaux modèles et nouveaux ensembles de formation qui en résultent. » « Il y a des modèles au-dessus des modèles et des ensembles de formation au-dessus des ensembles de formations », expliquent les chercheurs. Les biais et défaillances de chacun s’y imbriquent en cascades.   

Les deux chercheurs ont bien sûr observé les données de Laion-5B. Le problème, c’est que Laion-5B n’existe pas : c’est un gigantesque ensemble d’entraînement qui se décompose en plusieurs sous-ensembles. Il y a un sous-ensemble où le texte a été identifié algorithmiquement grâce au modèle de détection de la langue de Google comme de l’anglais, qui contient 2,3 milliards de paires images-textes. Un autre de 2,6 milliards qui contient du texte autre que l’anglais, et un dernier de 1,27 milliards d’images ou la langue n’a pas pu être détectée. Les images par langues sont donc peu représentatives de la population qui la parle. Mais quand on regarde des ensembles de données sur certaines langues, on se rend compte que l’étiquetage n’est pas toujours dans la langue spécifiée et que bien souvent, les textes sensés être dans une autre langue sont en fait en anglais… En fait, la détection de langue sur quelques mots peut avoir bien des ratés, et visiblement, les 3 grands ensembles de Laion-5B en regorgent. Bien souvent, les balises ALT ne sont en effet renseignées que de quelques mots que les systèmes de détection de langue peinent à classer.  

Laion a créé d’autres sous-ensembles d’association images-textes spécifiques. C’est le cas de Laion-Aesthetics, un ensemble d’images dites de « haute qualité visuelle ». Midjourney et Stable Diffusion utilisent un résultat affiné de ce sous-ensemble pour générer une image. Ce modèle a été créé depuis 3 sources : 15 000 images de logos ainsi que 2 ensembles d’images jugées visuellement attrayantes par des humains. 238 000 images proviennent d’images de synthèses produites par des IA génératives et notées par des communautés d’utilisateurs qui les échangent sur Discord et rassemble les images les mieux notées. Un forum Discord où les utilisateurs sont majoritairement occidentaux, instruits et fortunés ce qui fait que leur appréciation n’est pas sans biais. Un dernier ensemble de données provient du site dpchallenge.com, un forum de concours de photos, où là aussi une poignée d’évaluateurs notent les images que les participants, surtout américains, s’échangent. A l’aide de ces images, les développeurs de Laion ont produit un modèle qui produit un score esthétique des images qui permet d’améliorer l’esthétique des images générées. Une autre vérité est ainsi révélée : « Les concepts de ce qui est et de ce qui n’est pas visuellement attrayant peuvent être influencés de manière démesurée par les goûts d’un très petit groupe d’individus et par les processus choisis par les créateurs d’ensembles de données pour organiser les ensembles de données ». « Le tout petit façonne le géant », résument les chercheurs, pour dire que l’avis d’une poignée de participants à un forum obscur joue un rôle majeur dans le développement esthétique de l’IA générative ! L’esthétique de l’IA générative dépend donc de trois ploucs du Midwest qui façonnent le design du futur ! 

Comme l’expliquent les chercheurs, les faiblesses de Laion qu’ils mettent à jour sont visibles parce que Laion publie ses données en open source. Non seulement les modèles comportent d’innombrables biais, mais, on le comprend, l’écosystème repose sur des biais structurels que la « curation statistique amplifie ». En décembre, des chercheurs de l’Observatoire internet de Stanford ont identifié plus de 3000 images sous la catégorie abus sexuel sur enfants dans Laion-5B. Depuis, Laion-5B n’est plus disponible au téléchargement et les développeurs disent travailler à résoudre le problème. Cela n’empêche pas que d’innombrables copies soient disponibles.  

Cet exemple permet de saisir plusieurs limites et problèmes de l’IA. La forte intrication des biais des modèles qui s’alimentent les uns les autres. La très faible qualité des modèles, qui tient surtout de qualités statistiques globales, assez fragiles. Et enfin, le fait que l’open source ne garantit rien de particulier, si ce n’est la disponibilité des jeux de données. Le caractère open source de Laion-5B ne permet finalement que d’entrapercevoir les problèmes que tous les jeux d’entraînement non ouverts invisibilisent.  

La qualité plutôt que la quantité ?

L’analyse de Buschek et Thorp entre dans le cadre du programme de recherche Knowing Machines, – piloté par Kate Crawford, l’auteure de l’excellent Contre-Atlas de l’intelligence artificielle – qui vise à développer des méthodologies et des outils critiques pour analyser les données d’entraînement et de formation des modèles de l’apprentissage automatique. 

Parmi les très riches contributions qu’on trouve sur Knowing Machines, signalons par exemple une rapide étude qui s’est intéressée au droit d’auteur dans Laion en regardant le matériel copyrighté dans la base de données et montre que la question est très mal traitée, notamment parce que nombre d’images peuvent être labellisées par un copyright faussement attribué, comme quand le fournisseur d’une image numérique s’attribue une oeuvre du domaine publique. « Il ne fait aucun doute que de nombreuses images de Laion sont protégées par le droit d’auteur. Mais répondre à la question de savoir exactement quelles images et dans quelle mesure leur utilisation constitue une violation s’avère plus compliqué, en particulier lorsque les informations de droit d’auteur sur les images sont manquantes, obsolètes ou erronées », ce qui est généralement et globalement le cas. 

Dans Knowing Machines on trouve également une passionnante enquête sur les créateurs de jeux de données, une autre sur la constitution d’une base de données d’images très spécifique mais de haute qualité, celles résultantes de l’observation des oiseaux, où les bases de données se construisent en opposition à la logique extractiviste du Big data, proche des riches réflexions du Féminisme des données. On y trouve également un ensemble de réflexions sur les enjeux juridiques de l’IA.   

Mais surtout, Kate Crawford y signe une très intéressante mise en perspective. Elle rappelle que ces dernières années, le déploiement de l’IA s’est construit sur des données de plus en plus massives. Les données de formation et d’entraînement des modèles sont passées d’une échelle relativement petite à des ensemble massifs, à peu près aveugles à toute curation. En 2003, la base Caltech 101 comptait moins de 10 000 images. En 2010, ImageNet approchait les 14 millions d’images. En 2022, Laion-5B compte plus de 5 milliards d’images récupérées sur le Web, avec leurs légendes de texte correspondantes. En avril 2023, CommonPool de Laion a été lancé avec 12,8 milliards de paires image-texte. Nous arrivons à un point où l’ensemble du territoire d’Internet est devenu la carte de l’IA.

« Il existe une idée fausse largement répandue selon laquelle tout cela fonctionne bien, et par conséquent, comprendre ce que contiennent les données d’entraînement n’a pas d’importance », rappelle Crawford. Et en effet, la puissance des outils de génération de textes ou d’images fait toujours l’impasse sur leurs lacunes et leurs défaillances, comme si elles tenaient du bug plutôt que de la fonctionnalité. Nous sommes dans un moment où, dans la course à la production, seule la taille compte. Toutes les autres considérations et problèmes liés aux données d’entraînement, ce qu’elles représentent et comment elles représentent le monde, sont passées sous silence. 

Or, prévient Crawford, les données de formation comptent plus que jamais. « Elles déterminent les limites du connu et de l’inconnu ». « Elles codent les visions du monde ». Il est donc essentiel de comprendre comment les données sont utilisées dans ces systèmes. Or, l’accent mis sur l’échelle et l’inattention au contexte conduit à créer un « jeu d’ingénieurs », où l’enjeu ne consiste qu’à produire de nouveaux modèles sur la base du plus grand nombre de données possibles. Peu importe d’où elles proviennent, de quoi il s’agit ou qui les ont assemblé et pourquoi ! Les résultats de cette course conduisent à produire des stéréotypes raciaux, de genre ou de classe profondément inscrits dans ces machines, dont il n’est pas sûr qu’on puisse s’extraire. 

Pourtant, malgré les exemples qui s’accumulent… tout le monde continue de détourner le regard, comme si ces biais n’étaient pas importants. Or, à mesure qu’elle est rendue productive, l’IA générative se révèle bien plus biaisée que nous le sommes. Elle accentue et déforme nos stéréotypes au risque d’entraver tout progrès dans les représentations, comme le pointait une enquête de Bloomberg qui montrait comment Stable Diffusion amplifiait les stéréotypes de race et de genre. Comme le pointait Algorithm Watch, si certains générateurs d’images produisent des stéréotypes plus problématiques que d’autres, tous échouent en matière de diversité. Une enquête du Washington Post de novembre, montrait quant à elle que quand ces systèmes sont invités par exemple à illustrer des bénéficiaires de services sociaux, ils représentent massivement des personnes de couleurs alors qu’en fait, aux Etats-Unis, 63% des bénéficiaires des services sociaux sont blancs (contre seulement 27% de noirs). Pire, comme le montrait une étude sur le classement des images dans les grands modèles de l’IA générative, plus les modèles augmentent en taille, plus l’essentialisation raciste est exacerbée. 

Bien sûr, l’enjeu consiste alors à corriger ces effets, comme a tenté de le faire Google avec Gemini. Mais en insérant des correctifs invisibles aux prompts pour qu’ils introduisent de la diversité, Gemini s’est pris les pieds dans les polémiques, en étant accusé de produire des images de papes, de vikings ou de pères fondateurs de l’Amérique noirs. Les IA génératives sont par nature sujettes aux stéréotypes puisqu’elles doivent générer des images les plus communément associées à un mot, selon les représentations largement importées de données américaines et européennes. 

Dans The Atlantic, Chris Gilliard estime que l’IA générative n’est pas conçue pour refléter la réalité. Il rappelle également que ces problèmes de déformations de la réalité ne datent pas des IA génératives, mais sont plus anciens. Safiya Noble dans son livre, Algorithms of Oppression avait déjà montré que les programmes de ciblages publicitaires avaient des effets à grande échelle sur certaines communautés plutôt que d’autres. Voilà longtemps que l’on a compris que les systèmes techniques reproduisaient et perpétuaient les préjugés racistes. Ces problèmes n’ont jamais été résolus, mais bien plutôt occultés, comme quand, en 2015, Google a ôté l’étiquette gorille de sa base d’image parce qu’elle avait étiqueté ainsi une photo de personnes de couleurs. Par précaution, près de 10 ans plus tard, on ne peut toujours pas chercher de gorilles sur Google Photo !

« Des représentations de nazis noirs et l’étiquetage raciste des personnes noires sont les deux faces d’une même médaille« , explique Gillard. Les résultats racistes de l’IA sont le plus souvent attribués à de mauvaises données et au manque de données suffisamment diversifiées. De l’autre côté, l’extrême droite critique l’IA parce qu’elle serait trop corrigée, « lobotomisée », c’est-à-dire corrigée pour paraître plus universaliste qu’elle n’est. Pour Gillard, nous tourner vers l’IA générative pour obtenir une représentation est une illusion où s’immisce une machinerie qui écrase la réalité et la reconstitue sous des formes qui ne peuvent pas en être.

Image : exemples de propositions d’images de papes, de vikings et de nazis proposés par Gemini…

Mais le problème est assurément plus profond. Une récente étude menée par Valentin Hofmann montrait par exemple que selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses. Si on utilise des variantes d’anglais afro-américain par exemple, les réponses de l’IA générative sont bien plus négatives que si on utilise un anglais plus châtié ! Elles attribuent des emplois moins prestigieux à ces locuteurs, ou condamnent à des peines plus lourdes des personnes qui parlent l’afro-américain si les IA sont amenées à juger quelqu’un depuis les mots qu’ils prononcent. L’augmentation de la taille des modèles leur permet de mieux comprendre l’anglais afro-américain et d’être plus attentifs aux préjugés explicites, mais pas aux préjugés dialectaux. Au contraire, c’est comme si on exacerbait l’écart entre stéréotypes cachés et manifestes et qu’on apprenait aux LLM à dissimuler superficiellement le racisme qu’ils entretiennent à un niveau plus profond, comme l’a fait, visuellement, Gemini. Au final, les modèles linguistiques renforcent les préjugés des stéréotypes raciolinguistiques. Mais surtout, prévient le chercheur, les utilisateurs confondent la diminution des préjugés manifestes avec le signe que le racisme des LLM serait résolu. Il est probable que les préjugés dialectaux s’étendent à mesure que les modèles saisissent mieux les différences d’expressions. Cet effet est très bien mis en avant par un test récemment publié par Bloomberg utilisant ChatGPT. Le testing était particulièrement simple. Les journalistes ont demandé à ChatGPT de classer des CV dont le seul élément qui changeait était le nom des personnes. Sans surprise, les CV avec des noms à consonance afro-américaine étaient à chaque fois les plus mal classés ! 

Ces exemples nous permettent d’identifier une autre grande lacune du manque d’ouverture des modèles. Non seulement ils ne publient pas leurs données d’entrainements, mais ils ne documentent pas non plus les corrections qu’ils produisent et donc nous empêchent de comprendre les limites de ces corrections. En empêchant certaines commandes (les prompts !) ou en les corrigeants par devers l’action de l’utilisateur, comme l’a fait Gemini avec ses correctifs invisibles, ils rendent assurément l’amélioration des modèles plus difficile. Et ce d’autant que bien des corrections introduites sont très souvent frustres, comme l’expliquait la chercheuse Ksenia Ermoshina en observant le filtrage et la censure des IA génératives d’images russes. Bien souvent, ces mesures de corrections et de filtrages restent bricolées, très perfectibles, à l’image de la disparition du terme gorille de Google Photo. Et c’est un endroit où l’on aurait certainement un grand besoin de travaux communs et partagés. 

Kate Crawford et Trevor Paglen avaient mis en place l’ImageNet Roulette (le projet n’est plus disponible) pour permettre aux gens de voir les problèmes que produisaient les logiques de classification, ces balises accolées aux images pour les décrire. Étudier les données pour saisir les idéologies qu’elles portent, leurs points de vues, les préjudices qu’elles incarnent et concentrent et que les systèmes d’IA reproduisent est devenu primordial. Pour Crawford, il faut développer de nouvelles méthodes d’enquêtes et de productions. C’est tout l’enjeu du programme Knowing Machines qu’elle a lancé. 

Reste que la question de savoir quelles sont les données utilisées, comment sont-elles pondérées et filtrées –  des enjeux rappelés par tous les chercheurs qui oeuvrent à l’éthique des systèmes –  doivent encore beaucoup progresser pour dépasser des modèles bien plus translucides que transparents et s’assurer de leur responsabilité. Ce qui est sûr, c’est que ce n’est pas en mettant ces problèmes sous le tapis de l’efficacité des calculs qu’on résoudra les défaillances massives des machines à amplifier les biais que nous sommes en train de construire. Au contraire. La question de rendre disponible les données d’entraînements des modèles, de discuter des modalités de correction et de l’imbrication des calculs reste un enjeu majeur dont le régulateur devrait se saisir. Nous n’en sommes pas encore là, hélas.