Les chercheurs ont désormais du mal à créer des tests que les systèmes d’IA ne peuvent pas réussir. La plupart des tests dont nous disposions sont vites devenus caducs, explique Kevin Roose pour le New York Times. Des chercheurs du Center for AI Safety et de Scale AI viennent de publier un nouveau test d’évaluation baptisé « Humanity’s Last Exam », imaginé par Dan Hendrycks, directeur du Center for AI Safety. Le test consiste en un questionnaire à choix multiple de plus de 3000 questions qui ont chacune été produites par des experts en leur domaine, à qui on a demandé de proposer des questions extrêmement difficile dont ils connaissaient la réponse.
Il existe bien sûr d’autres tests qui tentent de mesurer les capacités avancées de l’IA dans certains domaines, tels que FrontierMath, un test développé par Epoch AI, et ARC-AGI, un test développé par le chercheur François Chollet. Mais celui de AI Safety s’imagine surtout comme un score d’intelligence générale du fait de la complexité et de la grande diversité des questions. « Une fois la liste des questions établie, les chercheurs ont soumis le dernier examen de l’humanité à six modèles d’IA de premier plan, dont Gemini 1.5 Pro de Google et Claude 3.5 Sonnet d’Anthropic. Tous ont échoué lamentablement. Le système o1 d’OpenAI a obtenu le score le plus élevé du groupe, avec un score de 8,3 % ». Mais ces résultats devraient bouger très vite.
Nous devrons chercher d’autres moyens d’évaluer les performances de l’IA que de savoir à quoi elles peuvent répondre, suggère Roose. Comme de mieux mesurer leurs impacts, comme d’examiner les données économiques qu’elles peuvent traiter ou juger si elle peut faire de nouvelles découvertes dans des domaines comme les mathématiques et les sciences. Pour Summer Yue, directrice de recherche chez Scale AI, un autre test pourrait consister à « poser des questions dont nous ne connaissons pas encore les réponses, et vérifier si le modèle est capable de nous aider à les résoudre ».
Les progrès de l’IA actuelle sont déroutants car ils sont très irréguliers, rappelle Kevin Roose. L’IA peut être très performante sur certains sujets et les mêmes modèles peuvent avoir du mal à effectuer des tâches de base, comme l’écriture de poésie rythmée. Et cela créé une perception de ses améliorations différenciée, selon que l’on regarde ses meilleurs résultats ou les pires. Cette irrégularité rend également l’évaluation de l’IA difficile. L’année dernière, Kevin Roose expliquait déjà que nous avions besoin de meilleures évaluations des systèmes d’IA, mais selon lui, nous avons aussi besoin de méthodes plus créatives que des tests standardisés que l’IA réussi plutôt bien. Si l’IA peut être impressionnante, même pour répondre à des questions complexes, ses réponse ne suffisent pas. L’un des experts en physique théorique des particules qui a soumis des questions au dernier test de l’humanité, explique que, quand bien même l’IA serait capable de répondre à toutes les questions sur nos connaissance, le travail humain ne se limite pas à fournir des réponses correctes. En médecine par exemple, les machines deviennent de plus en plus performantes pour produire des diagnostics automatisés, mais cela ne signifie pas qu’on puisse remplacer les médecins, rappelait le New Scientist. Parce que le diagnostic ne se limite pas toujours à des données. Ensuite parce que la relation est certainement plus essentielle qu’on ne la mesure. Enfin, parce que les symptômes eux-mêmes sont rarement clairs.
Le problème, conclut le New Scientist, c’est que les qualités comme les limites des diagnostics automatisés ne sont pas le seul facteur qui entre en ligne de compte dans l’automatisation. L’état du système de santé, ses défaillances, ses coûts, la disponibilité du personnel… sont autant de facteurs qui vont appuyer sur les choix à recourir et à déployer les outils, mêmes imparfaits. Bref, l’évaluation de l’IA ne peut se faire dans une boîte de Pétri.
Stream "Ça (dys)fonctionne"
- ↪ Sacrifiés
- ↪ L’arsenal technologique pour réprimer l’immigration aux Etats-Unis est prêt !
- ↪ Technofanatiques
- ↪ L’IA : une « machine à valeur perpétuelle »
- ↪ Pour une démocratie algorithmique
- ↪ De l’impact de la désinformation sur l’IA
- ↪ Avons-nous besoin d’un nouveau Twitter ?
- ↪ Mobiliser le devoir de vigilance
- ↪ O tempora, o mores
- ↪ Luttes américaines