Paul Bouchaud et Pedro Ramaciotti, chercheurs au CNRS et à Sciences Po rappellent dans une stimulante tribune pour Tech Policy Press, que certaines données personnelles sensibles sont protégées par le RGPD, comme les opinions politiques, les convictions religieuses, l’orientation sexuelle, l’origine ethnique, les données biométriques (sauf exceptions limitées). Le problème, désormais, c’est que les systèmes d’IA savent parfaitement déduire ces caractéristiques pour fonctionner… tant et si bien qu’il devient difficile de séparer le profilage politique délibéré et involontaire, estiment-ils. Les systèmes d’IA, parce qu’ils ont accès à de riches traces comportementales, peuvent reconstituer très précisément des informations protégées.
Dans ce continuum de la réidentification ciblée des utilisateurs, on trouve par exemple le système publicitaire de X. En juin 2025, AI Forensics a montré que X permettait aux annonceurs de cibler – ou d’exclure – les utilisateurs en fonction de caractéristiques protégées. « Par exemple, TotalEnergies (l’un des principaux fournisseurs d’énergie français) excluait de son ciblage publicitaire sur la plateforme les utilisateurs intéressés par les personnalités politiques écologistes et les produits casher ; Dell excluait les utilisateurs interagissant avec du contenu étiqueté « #lesbienne ». La Commission européenne a elle-même exclu les affiliations politiques de ses publicités ciblées, lesquelles identifiaient les utilisateurs par des étiquettes telles que « fasciste » et « communiste » fournies par X. En classant délibérément les utilisateurs dans des catégories correspondant directement à leurs opinions politiques, leur orientation sexuelle et leurs convictions religieuses (sous forme d’étiquettes mises à la disposition des annonceurs), ce système semble enfreindre à la fois le RGPD et le DSA qui interdisent explicitement le ciblage publicitaire fondé sur des données sensibles. Neuf ONG ont depuis déposé plainte auprès des coordinateurs nationaux des services numériques. Mais, il s’agit là du cas le plus flagrant de profilage actif – et le plus simple à corriger : supprimer purement et simplement les étiquettes de catégories sensibles du système publicitaire.»
Mais le profilage n’est pas toujours aussi direct soulignent les chercheurs. Par exemple, le système de modération participative de X, les Notes de communauté, fonctionne depuis un algorithme qui doit déduire la position idéologique des utilisateurs, non pas à partir de ses déclarations, mais automatiquement à partir de ses évaluations des notes des autres. Ce spectre politique, qui correspond aux échelles des sondages, n’a pas été codé, il émerge des données comme une dimension permettant de prédire le mieux quels utilisateurs sont d’accord avec quelles notes, expliquent-ils dans leur article de recherche. « Le système déduit l’opinion politique du comportement non pas comme un effet secondaire, mais comme le mécanisme spécifié par les créateurs et nécessaire à son fonctionnement ». Meta, Youtube, TikTok et nombre d’autres plateformes ont déployé leurs propres systèmes de modération communautaire dans le même but : créer un consensus par delà les clivages politiques, ce qui nécessite donc de déterminer la position politique de chaque utilisateur. « Ce qui a commencé comme une expérience sur une seule plateforme devient une infrastructure industrielle, et avec elle, l’inférence systématique des opinions politiques à grande échelle ».
Quels que soient les avantages pour la modération de contenu participative – qui a des limites importantes, comme le montrent les chercheurs (voir également dans notre veille) -, « ces systèmes sont fondamentalement incompatibles avec les lois sur la protection des données, car ils calculent les positions idéologiques de millions d’utilisateurs sans consentement explicite ». La conformité exigerait néanmoins des mesures claires : soit obtenir le consentement des participants, soit abandonner purement et simplement ces systèmes.
Mais la tension peut être encore plus profonde, comme dans le cas des algorithmes qui organisent les fils d’actu des réseaux sociaux ou ceux qui produisent des suggestions de personnes à suivre. Ces systèmes transforment les utilisateurs et les contenus en profils numériques qui capturent les similarités et la pertinence, déterminant ainsi ce que chaque personne voit. En analysant le code de X conjointement aux données collectées auprès des utilisateurs, les deux chercheurs ont reconstitué le processus et montrent qu’il y a un calcul de « la vision du monde » qui estime les positions idéologiques gauche-droite des utilisateurs. Cette dimension politique coexiste avec d’autres dimension, comme l’âge, le sexe ou les centres d’intérêts (l’actualité ou le sport par exemple). Si le système ne semble pas stocker l’information (« cet utilisateur est conservateur ») et si le profilage politique n’est pas un objectif du système (contrairement à Community Notes) : « l’algorithme apprend plutôt des habitudes d’engagement, des réseaux d’abonnés et des comportements de réponse corrélés à l’orientation politique, et exploite ces habitudes pour déterminer des recommandations personnalisées. Il s’agit d’un profilage passif mais systématique : les opinions politiques structurent si profondément les comportements en ligne que la plupart des modèles actuels performants les détectent. »
« Ne pas réglementer cette forme de profilage revient à autoriser les plateformes à utiliser sciemment des dimensions politiques – pour des centaines de millions d’utilisateurs – dans le calcul des recommandations de contacts, de publicités et de contenus. »
Et le problème devient encore plus profond avec l’IA conversationnelle. Les modèles produisent des profils sociodémographiques déduits d’indices conversationnels explicites (voir notre article, « Qui est l’utilisateur des LLM ? »). « Révéler son nom incite ces systèmes à inférer implicitement votre origine ethnique, tandis que divulguer les sports que vous pratiquez incite le modèle à inférer votre genre ». Dans un autre article de recherche, Paul Bouchaud et Pedro Ramaciotti montrent que les inférences cachées ont des conséquences concrètes et influencent les recommandations que vous recevez concernant votre évolution de carrière, les modalités de voyage que vous comptez faire ou autre (voir également « Inférences, comment les outils nous voient-ils ? »). Cette personnalisation passive, qui émerge grâce à de fortes corrélations statistiques dans les données d’entraînement, peut être poussée plus loin encore, notamment quand les systèmes d’IA sollicitent activement les usagers à fournir des informations sensibles pour fonctionner, comme lorsque les chatbots compagnons demandent explicitement l’orientation sexuelle des utilisateurs pour échanger avec eux. Or, le RGPD ne fait pas de distinction entre les données sensibles « collectées directement » et celles « déduites algorithmiquement » : il interdit le « traitement de données à caractère personnel révélant des attributs sensibles ». Et la Cour de justice de l’Union européenne a confirmé que cela concernait toute donnée « susceptible de révéler indirectement des informations sensibles […] récoltée à la suite d’une opération intellectuelle impliquant une déduction ou un recoupement ». Pour les chercheurs, chaque traitement de ce continuum enfreint le RGPD.
SI les cas de profilage actif pourraient être en principe corrigés, les cas de profilage plus passifs posent un problème plus profond.
Les systèmes de recommandation (de X, spécifient les chercheurs… mais on comprend que leurs constats peuvent être élargis à l’ensemble des systèmes de recommandation, d’autant plus qu’ils s’IAifisent profondément) « intègrent l’idéologie politique non pas parce que les ingénieurs l’ont spécifiée, mais parce que l’opinion politique structure si fondamentalement le comportement en ligne que tout modèle optimisé pour l’engagement la captera ». Pour Paul Bouchaud et Pedro Ramaciotti, soit le profilage passif n’est pas considéré comme relevant du RGPD, soit il l’est… et une vaste gamme de systèmes d’IA devient non conforme.
Les deux chercheurs esquissent cependant une solution : « rendre l’IA insensible aux catégories sensibles ». Après avoir identifié la position idéologique des utilisateurs dans l’algorithme de recommandation de contacts à suivre de X, ils l’ont supprimé. Ils ont constaté que cela a accru la diversité politique des recommandations de contacts sans en dégrader la pertinence.
Mais, cette solution est certainement limitée. La suppression de données ou de prise en compte de données ne fait pas disparaître les proxies que l’IA pourrait utiliser pour les reconstruire plus profondément. Ces systèmes sont capables d’inférer le genre par exemple sans avoir accès à des informations sur le genre des utilisateurs, mais peuvent le déduire d’innombrables manières. Peut-on vraiment rendre l’IA insensible aux catégories sensibles et être certain qu’elle ne les recompose via d’autres données ? Je serai un peu moins confiant qu’eux pour ma part.
Hubert Guillaud