De l’impact de la désinformation sur l’IA

Hubert Guillaud

Il est relativement facile d’empoisonner les modèles d’IA en ajoutant un peu de désinformation médicale à leurs données d’entraînement, explique le New ScientistLes expériences réalisées ont montré que le remplacement de seulement 0,5 % des données d’entraînement de l’IA par un large éventail de fausses informations médicales pouvait amener les modèles d’IA empoisonnés à générer davantage de contenu médicalement nocif, même lorsqu’ils répondaient à des questions sur des concepts sans rapport avec les données corrompues. Par exemple, les modèles d’IA empoisonnés ont catégoriquement nié l’efficacité des vaccins et des antidépresseurs en termes sans équivoque. Les chercheurs « ont découvert que la corruption d’à peine 0,001 % des données d’entraînement de l’IA par des fausses informations sur les vaccins pouvait entraîner une augmentation de près de 5 % du contenu nuisible généré par les modèles d’IA empoisonnés ».

Pour répondre à ces attaques, faciles à mener, les chercheurs ont développé un algorithme de vérification des faits capable d’évaluer les résultats de n’importe quel modèle d’IA pour détecter la désinformation médicale. En comparant les phrases médicales générées par l’IA à un graphique de connaissances biomédicales, cette méthode a pu détecter plus de 90 % de la désinformation médicale générée par les modèles empoisonnés. Le problème reste que l’algorithme de vérification ne peut pour l’instant n’être qu’un correctif temporaire, mais cela plaide en tout cas pour améliorer les contrôles randomisés des systèmes et leur surveillance en continue.