IA et science : du pliage de protéines… à l’illusion de la connaissance

L’idée que l’IA serait l’avenir de la science comme on l’entend très souvent est bien plus un moyen d’orienter les investissements qu’une vérité scientifique.

Hubert Guillaud

« Le discours selon lequel l’intelligence artificielle révolutionne la science est désormais quasiment incontournable », rappelle William Burns, consultant en politique scientifique, pour Tech Policy Press. « L’histoire raconte déjà que l’IA n’est pas seulement l’avenir : elle révolutionne les découvertes scientifiques ». Même des gens assez critiques de l’IA et de ses développements disent qu’elle possède des « capacités prometteuses » pour la recherche scientifique, justifiant son développement. Pourtant, l’IA, telle qu’elle est actuellement déployée en science, occulte plus qu’elle ne révèle, exacerbant les problèmes qu’elle prétend résoudre. 

Les chercheuses Lisa Messeri et Molly J. Crockett affirmaient l’année dernière dans Nature que « la prolifération des outils d’IA en science risque d’introduire une phase de recherche scientifique où nous produisons davantage, mais comprenons moins ». Mais surtout, l’usage de l’IA pourrait compromettre la capacité à produire des connaissances fiables, sur lesquelles repose tout l’édifice scientifique. Cette crise annoncée prolonge celle que traverse la recherche depuis le début du XXIe siècle, notamment liée à la stagnation des découvertes pharmaceutiques. Burns rappelle par exemple que le Projet Génome Humain dans les années 90 a été lancé en promettant une prolifération de nouveaux médicaments qui n’est jamais advenue. Un chercheur d’une grande entreprise scientifique expliquait en 2008 que « rien de ce que les entreprises ont fait pour accroître la production de nouveaux médicaments n’a fonctionné, y compris les fusions, les acquisitions, les réorganisations et l’amélioration des processus ».

Le microbiologiste américain, Carl Woese, opposant à l’ingénierie biologique, estimait, en 2004, que la crise de l’innovation était liée à la généralisation de l’ingénierie du vivant. En 2011, l’économiste Philip Mirowski estimait que le néolibéralisme, obsédé par la technologie, avait tué la rigueur scientifique. La promesse de renouveau scientifique par l’IA s’inscrit pleinement en prolongement de cette crise. En 2023, l’OCDE expliquait que l’IA pourrait venir aider une science devenue « plus difficile ». A l’image d’AlphaFold, le système de pliage des protéines de Google DeepMind, pour lequel Demis Hassabis et John Jumper ont reçu le prix Nobel de chimie en 2024.

Les protéines ne sont pas des puces de silicium

AlphaFold a permis de prédire la structure de 200 millions de protéines, mais il serait expérimentalement impossible d’en vérifier n’en serait-ce qu’une fraction. Pour ce faire, « il faudrait généralement isoler des protéines des cellules en quantités importantes – un processus capricieux – puis les soumettre à des techniques telles que la diffraction des rayons X et la résonance magnétique nucléaire. Ces étapes pourraient prendre des années, même pour une seule protéine ». Néanmoins, la philosophe Daria Zakharova a affirmé dans un pre-print que si les prédictions d’AlphaFold sont considérées comme fiables et sont utilisées par les scientifiques, cette « connaissance » est bien imparfaite. « D’un point de vue strictement matériel, AlphaFold n’est pas une représentation du comportement des protéines, mais plutôt du comportement des puces de silicium (sur lesquelles repose le calcul). En ce sens, les inventeurs d’AlphaFold ont avancé l’hypothèse que des puces de silicium pourraient imiter les protéines. Cela soulève la question de savoir comment des matériaux sans lien entre eux, tant chimiquement que spatialement et temporellement, pourraient s’imiter. Au minimum, des preuves substantielles seraient nécessaires pour le prouver. Pourtant, lorsque des efforts ont été déployés pour le vérifier, les résultats ont été mitigés », rappelle Burns. Une étude récente de Garrido-Rodríguez et ses collègues a par exemple soutenu que le calcul d’AlphaFold ne « correspondait pas aux modèles déterminés expérimentalement », faisant référence à une classe de protéines omniprésentes et biologiquement vitales appelées serpines. « De toute évidence, des recherches plus approfondies pourraient être nécessaires sur la fiabilité de l’IA en tant qu’outil prédictif ». Pour Burns, les preuves ne sont pas suffisamment solides à ce stade. Bien sûr, le repliement des protéines est complexe. Leur modélisation est ancienne et repose sur des hypothèses manifestement différentes de leur réalité. Longtemps, ces modèles servaient à interpréter des données d’observation issues de la diffraction des rayons X, et non à créer un modèle informatique, comme avec AlphaFold. Le problème, estime le chercheur en cancérologie et lauréat du prix Nobel de physiologie ou médecine 2019, William G. Kaelin Jr., c’est que la publication doit construire son savoir sur des briques plutôt que sur de la paille

Au Royaume-Uni, la UK Biobank, une entreprise publique qui détient des données génétiques sur un sous-ensemble de la population britannique, aurait conclu en mars dernier un partenariat avec des sociétés pharmaceutiques et Calico, filiale d’Alphabet, qui auront accès à ces données pour des études menées avec l’IA. Le projet a été décrit par le Financial Times comme « un exemple emblématique de la manière dont les ordinateurs avancés et les modèles d’intelligence artificielle peuvent exploiter de vastes ensembles de données biologiques pour étudier en profondeur le fonctionnement du corps humain et ses dysfonctionnements potentiels ». Une question se pose cependant : l’exploitation de ces ensembles de données est-elle susceptible de produire des connaissances fiables, même en théorie ? En 2017, ces données ont été décrites comme « non représentatives de la population générale… Les participants à la UK Biobank vivent généralement dans des zones socio-économiquement moins défavorisées ; sont moins susceptibles d’être obèses, de fumer et de consommer de l’alcool quotidiennement ; et présentent moins de problèmes de santé autodéclarés ». La structure de ces ensembles de données de santé, et d’autres similaires, qui ne sont certainement pas secrets, suscite des doutes. Même les observateurs optimistes doivent l’admettre : si les données sont inadéquates et l’IA opaque, quelle est la valeur épistémique réelle de ces projets ? Le prix Nobel Kaelin Jr. a conseillé : « La question… devrait être de savoir si… les conclusions sont susceptibles d’être correctes, et non de savoir s’il serait important qu’elles soient vraies. » 

Ralentir la science

Si l’on veut sauver la science de son malaise actuel, des solutions sont déjà possibles, conclut Burns. « Des propositions comme la « slow science » d’Isabelle Stenger semblent valoir la peine d’être tentées, car elles pourraient élargir la charge de la preuve aux affirmations scientifiques et encourager un esprit de service public parmi les scientifiques. Pourtant, si une rénovation épistémique a eu lieu jusqu’à présent dans le domaine scientifique, elle est restée extrêmement timide et n’a pas produit d’effets escomptés. 

Il faut dire que pour les investisseurs, l’idée que l’IA puisse nous sortir de l’impasse actuelle et donner naissance à toutes sortes d’inventions rentables est doublement séduisante. L’IA est une méthode qui ne nécessite que des capitaux pour sa mise en œuvre et qui peut être réalisée à grande échelle, contrairement à la recherche empirique, centrée sur l’humain et fastidieuse, où l’ingéniosité et la chance (qui ne s’achètent pas si facilement) semblent prédominer. Mais investir dans l’IA est aussi un moyen efficace de maintenir le statu quo, tout en semblant le bouleverser, car il pose l’hypothèse d’un avenir technologique sans les changements systémiques qu’impliquent d’autres réformes. 

Dans cette optique, nous devons résister au spectacle. L’IA fait vendre une vision du progrès où les algorithmes peuvent révéler les secrets plus rapidement, mieux et à moindre coût ; pourtant, les secrets de la nature ne sont pas si facilement révélés, et la connaissance sans compréhension n’est pas une connaissance du tout. »

S’il y avait besoin d’une explication supplémentaire, Alberto Romero dans sa newsletter algorithmic Bridge, revient sur une étude du MIT et de Harvard, où les chercheurs se sont demandé si les modèles d’IA pouvaient passer de la simple prédiction au « développement de modèles fiables », en les faisant travailler sur un problème de physique assez classique ? Mais au lieu de tester avec le langage, qui est assez complexe et difficile à analyser, ils se sont concentrés sur la physique classique. Ils voulaient voir si le modèle utiliserait les lois de Newton pour prédire les vecteurs de force à l’origine du mouvement de révolution de la terre autour du soleil ou s’il inventerait simplement ses prédictions sans comprendre la physique réelle. Ils ont conclu que les modèles d’IA font des prédictions précises, mais ne parviennent pas à encoder le modèle universel de Newton et recourent plutôt à des heuristiques spécifiques à chaque cas, non généralisables et fortement incohérents. L’étude montre que « les modèles d’IA sont tout simplement incapables de coder un ensemble de lois robustes pour régir leurs prédictions : ils sont non seulement incapables de retrouver des modèles du monde, mais intrinsèquement mal équipés pour le faire ». Un modèle d’IA d’apprentissage profond est peut-être architecturalement incapable de développer des modèles du monde corrects estiment-ils.Même le rêve que l’IA puisse être utilisée pour améliorer la prédictibilité des modèles climatiques est battue en brèche. Dans leur livre, AI Snake Oil (voir notre recension), les chercheurs Arvind Narayanan et Sayash Kapoor montraient que son amélioration était assez limitée et qu’elle pourrait même atteindre un pallier indépassable, à mesure que les phénomènes deviennent plus extrêmes. La croyance dans un progrès scientifique exponentiel porté par l’IA ne sert qu’à raviver les promesses des technosciences comme le disaient déjà Marc Audétat et les chercheurs invités dans Sciences et technologies émergentes : pourquoi tant de promesses ? (Hermann, 2015, voir notre recension). L’idée que l’IA serait l’avenir de la science comme on l’entend très souvent est bien plus un moyen d’orienter les investissements qu’une vérité scientifique.