Les sources du web se referment

Hubert Guillaud

Lorsque les modèles d’IA sont entraînés sur des données générées par l’IA, la qualité des résultats du modèle se dégrade progressivement, estime une étude pour Nature. Un peu comme la prise d’une photo d’une photo, explique le chercheur Ilia Shumailov : les améliorations et les performances ralentissent, dégradant la capacité à prédire la suite d’une séquence. Pour éviter cette dégradation, il faudrait donner plus de poids aux données originales qu’aux données synthétiques… ce qui nécessite d’identifier et tracer l’origine des données. Pas si simple ! D’autant que, selon une étude de Data Provenance Initiative, les sources du web utilisées pour l’entraînement des IA se referment.

Derrière cette crise des contenus pointe une crise émergente du consentement : éditeurs et plateformes mettent en place des mesures pour limiter le scraping. « 5 % de toutes les données et 25 % des données provenant de sources de la plus haute qualité ont été restreintes ». Le développement de licences d’exploitation de contenus, payantes, comme quand OpenAI rémunère des journaux pour exploiter leur fond, risque surtout de profiter aux plus gros modèles, ceux qui pourront se les payer, explique Kevin Rose pour le New York Times. Pour Shayne Longpre de Data Provenance, « nous avons besoin de nouveaux outils pour donner aux propriétaires de sites Web des moyens plus précis de contrôler l’utilisation de leurs données », afin de permettre par exemple leur utilisation par la recherche ou la société civile…