Pourquoi l’IA art est-il partout si semblable ?

Hubert Guillaud

La monotonie stylistique de l’IA générative d’images peut certes être un peu orientée par la précision des prompts, mais toutes les plateformes semblent surtout produire des tonalités assez semblables, entre dessin animé, paysage onirique et réalité étrangement hyper-réaliste, notamment quand ces modèles répondent à des invites généralistes. Pourquoi une telle uniformité, s’interroge Caroline Mimbs Nyce pour The Atlantic ?

La faute d’abord, bien sûr, aux données d’entraînement des IA, qui sont peu ou prou partout les mêmes. La faute certainement aux techniques utilisées. « Il y a cinq ans, explique Apolinário Passos, ingénieur chez Hugging Face, les générateurs d’images avaient tendance à créer des sorties très floues. Les chercheurs ont réalisé que c’était le résultat d’un hasard mathématique ; les modèles faisaient essentiellement la moyenne de toutes les images sur lesquelles ils étaient entraînés. Il s’avère que la moyenne « ressemble à du flou ». Il est possible qu’aujourd’hui, quelque chose de technique similaire se produise avec cette génération de modèles d’images qui les amène à produire le même type d’images spectaculaires et très stylisées – mais les chercheurs ne l’ont pas encore tout à fait compris ». Sans compter que les modèles ont tous des filtres esthétiques en entrée et sortie qui peuvent également expliquer le fait que les qualités soient très semblables d’un outil à l’autre. 

Une autre explication pourrait tenir des choix que font leurs utilisateurs, les images qu’ils choisissent, qu’ils préfèrent, qu’ils téléchargent… agissant comme une boucle de rétroaction sur de nombreux modèles. Enfin, peut-être peut-on y voir aussi les choix esthétiques des créateurs d’IA, orientant les créations notamment vers des styles que les gens apprécient. Le style des images ne sont donc pas que le reflet de nos préférences. Mais cela pourrait changer à l’avenir. Pour se démarquer, les modèles vont devoir se différencier un peu mieux les uns des autres. 

Dommage pourtant que la réflexion de Caroline Mimbs Nyce ne s’intéresse pas au cœur de la ressemblance entre les images de tous ces systèmes, qui n’est pas tant dans le style que la composition et les représentations. Quand on regarde les résultats de mêmes prompts réalisés par des dizaines ou des centaines de personnes sur des outils semblables ou similaires, ce qui marque le plus n’est pas leur ressemblance esthétique, c’est la manière de produire des représentations très proches les unes des autres, jusqu’à saturer totalement notre regard d’images dont les compositions semblent semblables. Ces productions nous montrent surtout combien nos représentations sont extrêmement normées par des techniques de cadrages, de représentations sociales qui s’épuisent très vite à force d’être répétées. Ce n’est pas que du style de l’IA dont nous allons très vite être saturés, c’est également de la médiocrité de la représentation particulièrement normée qu’il produit à la chaîne.