Nous avons besoin de bases partagées de ce que les modèles censurent

Hubert Guillaud

Le nom du professeur de droit Jonathan Zittrain fait partie des quelques noms qui sont censurés de ChatGPT. Pour The Atlantic, Zittrain explique que cette exclusion, grossière, pour laquelle il n’a pas reçu d’explication convaincante d’OpenAI, permet de saisir les enjeux du contrôle des modèles. Les interventions et les réglages de modération des modèles devraient être accessibles, car ils peuvent « représenter des jugements sociaux et moraux plutôt que de simples jugements techniques ». Nous pourrions pour se faire nous fonder sur ce qui se pratique déjà comme La base de données Lumen du Berkman Klein Center qui sert depuis longtemps de référentiel unique en temps quasi réel des modifications apportées à Google Search en raison d’exigences juridiques en matière de droits d’auteur et autres. Ou encore comme PhotoDNA , la base de données d’images pédopornographiques initiée par Microsoft en 2009 et gérée par le Centre national pour les enfants disparus et exploités (NCMEC)… Ou encore la base de données de contenus terroristes créée en 2016 par Microsoft, Youtube, Facebook et Twitter pour les identifier et faciliter leurs pratiques de modération automatisée et gérée par le Global Internet Forum to Counter Terrorism.

Si un chatbot ne dit rien de ce qu’il s’est passé sur la place Tiananmen en 1989, nous devons pouvoir comprendre pourquoi, défend Zittrain. « Ceux qui construisent des modèles ne peuvent pas être les arbitres silencieux de la vérité des modèles. »