La pseudo-ouverture, condition de domination

Hubert Guillaud

Nous avions déjà souligné la difficulté à qualifier d’ouverts des systèmes d’IA qui ne le sont pas vraimentDans NatureDavid Widder, Meredith Whittaker et Sarah Myers West enfoncent le clou : à mesure que tout le monde parle d’ouverture de l’IA, force est de constater qu’elle se réalise de moins en moins.

En fait, la rhétorique sur l’IA open source a été largement construite par les entreprises d’IA elles-mêmes, comme un moyen pour s’exempter des contraintes réglementaires, alors même que le flou de ce que recouvre l’IA vient perturber la notion d’ouverture. En fait, on projette des conceptions conventionnelles du libre et de l’open source sur des systèmes d’IA dont la complexité nécessiterait des redéfinitions de l’ouverture. Or, rappellent les chercheurs, l’open source logicielle ne désigne pas seulement des modèles réutilisables, mais d’abord des écosystèmes pour créer de la domination de diverses manières, que ce soit pour s’opposer aux concurrents privés, pour obtenir l’hégémonie sur des marchés voire capitaliser et intégrer des idées développées à l’extérieur sans avoir bourse à délier.

Mais l’ouverture dans le domaine de l’IA n’est pas de même niveau ni ne porte les mêmes enjeux que dans le monde du logiciel libre. Elle n’est pas qu’une question d’accès à des interfaces de programmation ou à des données d’entraînements. Et surtout, l’accès aux grands modèles dits ouverts, ne crée pas une perturbation des caractéristiques du marché, mais renforce les grands acteurs. Dans la pratique, l’ouverture n’offre parfois guère plus qu’un accès à des API ou à un modèle qui porte de nombreuses restrictions d’utilisation. Dans ces cas-là, nous sommes clairement dans de l’openwashing. Les grands modèles d’IA pseudo-ouverts « façonnent toutes les trajectoires et les conditions » de ce qui peut être construit à partir d’eux.

Contrairement au monde du logiciel libre, l’IA dite ouverte ne change pas les conditions de concurrence. Au contraire. Les conditions d’accès aux marchés restent contraintes et limitées. Même des acteurs avec du capital ne peuvent les atteindre sans s’associer aux seigneurs de l’IA, à l’image de Mistral contraint de s’associer à Microsoft.

En réalité, les modèles d’IA n’ont d’ouvert que le nom. Ils ne documentent pas leurs données de formation, publient peu de résultats et encore moins depuis des processus d’évaluation scientifique. Les modèles sont mêmes devenus si concurrentiel et si vastes, que désormais, la taille des données d’entraînement mobilisées n’est même plus indiquée. En fait, les données sont bien souvent « l’élément fermé des offres d’IA qui se présentent comme ouvertes ». Leur production extractiviste et colonialiste interroge. « Lorsque les ensembles de données ne sont pas mis à disposition pour examen, ou lorsqu’ils sont d’une taille insondable, il devient très difficile de vérifier si ces ensembles de données blanchissent la propriété intellectuelle d’autrui ou utilisent commercialement des données qui ne devraient pas l’être ». Ces systèmes reposent fondamentalement sur l’exploitation du travail d’autrui, que ce soit par les données qu’ils exploitent, pour étiqueter, produire et classer les données, pour étalonner les modèles, pour la modération comme pour la maintenance. Autant de domaines sur lesquels, l’ouverture et l’information sont inexistantes, autrement que via le travail de journalistes, de travailleurs ou de chercheurs, dont les travaux seuls permettent de comprendre les limites des systèmes.

Enfin, l’économie de l’IA repose aussi sur des cadres de développement interopérables et des développements open sources populaires qui vont servir à la construction des modèles et à leurs interconnexion, depuis des méthodes et pratiques standardisées. Ce sont notamment PyTorch et TensorFlow, tous deux créés au sein de grandes entreprises technologiques commerciales, Meta et Google. Ils permettent notamment à Meta et à Google et à ceux qui pilotent le développement de ces cadres de normaliser la construction de l’IA, et de rendre les résultats compatibles avec leurs propres plateformes d’entreprise, « garantissant que leur cadre conduit les développeurs à créer des systèmes d’IA qui, comme des Lego, s’emboîtent dans leurs propres systèmes d’entreprise ». Ces cadres de développement ne sont pas que des cadres de standardisation, ils permettent de créer « des rampes d’accès » vers d’autres services, notamment les offres de calcul en nuage et l’intégration aux autres outils logiciels. « L’entreprise qui propose ces cadres obtient un pouvoir indirect substantiel au sein de l’écosystème », puisque cette standardisation lui permet de former les développeurs et les chercheurs et donc à terme lui permet de capturer les développements de l’IA. Enfin, l’accès à la puissance de calcul pour développer les modèles est on ne peut plus restreinte et très largement propriétaire.

Pour les chercheurs, l’IA dépend de quelques très grands acteurs qui contrôlent l’industrie. Contrairement à son apport dans le monde logiciel, l’ouverture de l’IA, elle, repose sur un ensemble de couches plus complexes, dont les modalités d’ouverture et de transparence minimales ne sont pas construites. L’ouverture ne conduira pas à elle seule à produire un écosystème plus diversifié, responsable ou démocratique. Pour l’instant, les grandes entreprises utilisent l’avantage que leur procure la pseudo-ouverture qu’elles proclament pour éloigner les réglementations qui les menacent, notamment les accusations de produire des monopoles. 

En vérité, l’IA est d’abord contrôlée de bout en bout par quelques acteurs géants. La transparence, la documentation sont bien sûr précieux pour améliorer la responsabilisation des acteurs et leur contrôle, mais pour l’instant nous sommes surtout confrontés à des systèmes opaques qui concentrent le pouvoir bien plus qu’ils ne le disséminent. Mobiliser pour élargir l’ouverture des modèles, seule, ne sera probablement pas très bénéfique, notamment parce qu’elle ne suffit pas à renverser la concentration du pouvoir à l’œuvre. Derrière l’ouverture, l’enjeu n’est pas seulement de rendre les modèles réutilisables, ou plus transparents, mais de lutter contre l’accaparement de toutes les formes de production de calcul par quelques entités. Et pour cela, l’ouverture ne suffit pas.