Il est temps de faire entrer les voix des gens dans le code

Mots clés

Dans la même rubrique

En 2022, David Robinson faisait paraître « Voices in the Code ». Depuis, on ne s’étonnera pas qu’il soit devenu responsable de la sureté des systèmes chez OpenAI. « Voices in the Code » est à la fois une enquête passionnante sur la responsabilité des systèmes et une ode à la participation publique, seule à même d’assurer leur gouvernance. Lecture.

Avec Voices in the Code, David G. Robinson signe un livre important pour nous aider à rendre les systèmes responsables. Robinson est l’un des directeurs de l’Apple University, le centre de formation interne d’Apple. Il a surtout été, en 2011, le cofondateur d’Upturn, une association américaine qui promeut l’équité et la justice dans le design, la gouvernance et l’usage des technologies numériques. Voices in the code est un livre qui se concentre sur la gestion d’une question technique et une seule, en descendant dans ses tréfonds, à la manière d’une monographie : celle de l’évolution de l’algorithme d’attribution des greffons de rein aux Etats-Unis. Et cette histoire est riche d’enseignement pour comprendre comment nous devrions gérer les algorithmes les plus essentiels de nos sociétés.

“Plus de technologie signifie d’abord moins de démocratie”

De plus en plus de moments décisifs de nos vies sont décidés par des algorithmes : attribution de places dans l’enseignement supérieur, obtention de crédit bancaire, emploi, emprisonnement, accès aux services publics… Derrière les verdicts opaques des systèmes techniques, nous avons tendance à penser que leurs enjeux de conception n’est qu’une question technique. Ce n’est pas le cas. La mathématicienne Cathy O’Neil dans Algorithmes, la bombe à retardement, nous le disait déjà : les algorithmes sont des opinions embarquées dans du code. Et le risque est que confrontés à ces systèmes nous perdions les valeurs et l’idéal de société qui devraient les guider. Ces systèmes qui produisent des choix moraux et politiques sont souvent difficiles à comprendre, peu contrôlés, sujets aux erreurs. “Les choix éthiques et démocratiques pris par ces logiciels sont souvent enterrés sous une montagne de détails techniques qui sont traités eux-mêmes comme s’ils étaient techniques plus qu’éthiques”, explique Robinson. Pourtant, les algorithmes n’ont aucune raison d’être mystérieux et leurs limites morales devraient être partagées, notamment pour que nous puissions faire collectivement le travail nécessaire pour les améliorer.

Les algorithmes permettent de traiter des données massives et sont particulièrement populaires pour prendre des décisions sur les personnes – et notamment les plus démunies -, parce qu’ils permettent justement de procéder à des traitements de masses tout en réduisant les coûts de ces traitements. Cela n’est pas sans conséquences. “Trop souvent, plus de technologie signifie d’abord moins de démocratie”, constate Robinson. Le problème, c’est que quand les décisions difficiles sont embarquées dans des logiciels, ces décisions sont plus dures à comprendre et plus difficiles à contrôler. Les logiciels agissent depuis des données toujours imparfaites et la compréhension de leurs biais et lacunes n’est pas accessible à tous. La quantification semble souvent neutre et objective, mais c’est surtout un moyen de prendre des décisions “sans avoir l’air de décider”, comme le disait l’historien des sciences Theodore Porter dans son livre, Trust in numbers. Trop souvent, l’implantation d’algorithmes est le décret d’application des lois. Le problème, c’est que trop souvent, la politique n’est pas assez précise, les ingénieurs comme les administrations avant eux, doivent en produire une interprétation qui a des conséquences directes sur ceux qui sont affectés par le calcul. Nos lois et politiques sont remplies d’ambiguïtés. Le risque auquel nous sommes confrontés c’est de laisser décider aux ingénieurs et systèmes le rôle de définir les frontières morales des systèmes techniques qu’ils mettent en place.

Le problème, bien souvent, demeure l’accès aux algorithmes, aux calculs. En 2021, Upturn a publié une étude (.pdf) sur 15 grands employeurs américains pour comprendre les technologies qu’ils utilisaient pour embaucher des candidats, concluant qu’il était impossible de saisir les biais de leurs pratiques depuis l’extérieur. Et c’est encore plus difficile quand les algorithmes ou leurs résultats sont puissamment intriqués entre eux : avoir un mauvais score de crédit a des répercussions bien au-delà d’une demande de crédit (sur ses primes d’assurance ou la possibilité de candidater à certains emplois par exemple…). Nous sommes cernés par des scores complexes, intriqués, qui ne nous sont pas expliqués et qui calculent trop souvent des objets d’une manière trompeuse, selon une prétention à la connaissance mensongère (Robinson parle de “prédictions zombies” qui m’évoquent les “technologies zombies” de José Halloy), peu contrôlés, pas mis à jour… sans qu’on puisse les contester, les rectifier ou même être au courant de leur existence. Robinson donne de nombreux exemples d’algorithmes qui posent problèmes, dans le domaine de la justice, de la santé, de l’aide sociale, de l’affectation dans l’enseignement supérieur…

“Quand les enjeux sont élevés, nous devrions construire des systèmes qui se trompent rarement et où les erreurs sont faciles à trouver et à corriger”. Ce n’est pas le cas. Trop souvent, les systèmes mettent en œuvre les logiques morales de ceux qui les conçoivent. Trop souvent, on laisse les experts techniques, cette élite du code (qui tient également beaucoup d’une consultocratie, entre Gafams et grands acteurs du conseil) décide d’enjeux moraux et politiques. Nous sommes confrontés à une industrie logicielle qui encode les principes et visions du monde des puissants. Des technologies avec des objectifs, comme disait Kate Crawford. Un numérique industriel profondément orienté à droite, comme je le résume souvent et plus directement. Contrairement à ce qu’on pourrait penser, décider de qui doit prioritairement bénéficier d’un organe tient bien plus d’un choix moral que d’un choix médical, notamment parce que les différences médicales entre les patients qui relèvent d’une même urgence sont faibles. Trop souvent, le choix moral qu’accomplissent les systèmes n’est pas explicite. “Nous devons nous inquiéter de la relation entre le process et le résultat”, explique Robinson. Le problème, c’est que bien souvent la conception met en valeur l’un ou l’autre, prônant la vertu du processus ou la vertu du résultat, quand ils devraient surtout se renforcer l’un l’autre plutôt que de s’opposer. Or, souligne Robinson dans son livre, seule la délibération et la participation partout tendent à mener à de meilleurs résultats, permettent de faire se rejoindre le process et le résultat.

4 stratégies pour améliorer la gouvernance des systèmes

Robinson détaille 4 stratégies de gouvernance pour les systèmes algorithmiques :

Élargir la participation des parties prenantes
Renforcer la transparence
Améliorer la prévision d’impact des systèmes
Assurer l’audit en continu

La participation des parties prenantes repose sur les techniques délibératives très documentées, comme on les trouve développées dans les jury ou les conférences de citoyens : à savoir délivrer une information équilibrée, consciente, substantielle, compréhensible. C’est ce qu’on appelle aussi, assez mal, les “comités consultatifs” communautaires ou éthiques (qu’on devrait plutôt appeler il me semble Comités de parties prenantes, parce qu’ils ne devraient pas être seulement consultatifs, mais bien impliqués dans les décisions… et parce que leurs fonctions consistent avant tout à rassembler autour de la table tous ceux qui sont concernés, les usagers comme les experts). Ces comités chargés d’inspecter, de contrôler, d’équilibrer les décisions techniques en faisant entendre d’autres voies dans les décisions sont encore bien trop rares. Une coalition d’organisation de défense des droits civils a proposé ainsi que les algorithmes d’évaluation de risque de récidive utilisés dans les cours de justice américaines mettent en place ce type de structure pour déterminer ce qui devrait être pris en compte et rejeté par ces systèmes, et on pourrait les imaginer comme des structures obligatoires à tout système à fort impact social. C’est le “rien pour nous sans nous” de ceux qui réclament d’être à la table et pas seulement au menu de ce que l’on conçoit pour eux. Le risque bien sûr – et c’est d’ailleurs la règle plus que l’exception – c’est que ces comités soient trop souvent des coquilles vides, un faux-semblant participatif, rassemblant des gens qu’on n’écoute pas.

La transparence peut prendre bien des formes. La principale à l’œuvre dans les systèmes techniques consiste à divulguer le code source des systèmes. Une solution intéressante, mais insuffisante, notamment parce qu’elle ferme la question à l’élite du code, et surtout que sans données correspondantes, il est difficile d’en faire quelque chose (et c’est encore plus vrai avec les systèmes d’IA, dont la non-reproductabilité est le premier écueil). La transparence doit s’accompagner d’une documentation et de descriptions plus larges : des données utilisées comme des logiques de décisions suivies, des critères pris en compte et de leurs poids respectifs. Elle doit être “extensive”, plaide Robinson (pour ma part, j’ajouterai bien d’autres termes, notamment le terme “projective”, c’est-à-dire que cette transparence, cette explicabilité, doit permettre au gens de se projeter dans les explications). Dans le contexte de la transplantation, le système doit être décrit d’une manière compréhensible, les changements envisagés doivent être explicités, doivent montrer ce qu’ils vont changer, et l’ensemble doit pouvoir être largement débattu, car le débat fait également partie de la transparence attendue.

La prévision consiste à produire des déclarations d’impacts qui décrivent les bénéfices et risques des modifications envisagées, évaluées et chiffrées. La prévision consiste à montrer les effets concrets, les changements auxquels on souhaite procéder en en montrant clairement leurs impacts, leurs effets. L’enjeu est bien de prévoir les conséquences afin de pouvoir décider depuis les effets attendus. Dans le cas de la transplantation de rein, les études d’impact sur les modifications de l’algorithme d’allocation ont permis de voir, très concrètement, les changements attendus, de savoir qui allait être impacté. Lors d’une de ses modifications par exemple, la prévision – produite par un organisme dédié et indépendant, c’est important – montrait que les patients âgés recevraient bien moins de transplantation… ce qui a conduit à rejeter la proposition.

L’audit consiste à surveiller le système en usage et à produire une documentation solide sur son fonctionnement. Les audits permettent souvent de montrer les améliorations ou détériorations des systèmes. Sous prétextes de vie privée ou de propriété, l’audit est encore bien trop rarement pratiqué. Bien souvent, pourtant, l’audit permet d’accomplir certaines mesures, comme par exemple de mesurer la performances des systèmes d’attribution de crédits sur différents groupes démographiques. Dans le domaine de la transplantation rénale américaine, le Scientific Registry of Transplant Recipients (SRTR) – l’organisme indépendant qui publie un rapport annuel détaillé pour mesurer la performance du système pour les patients selon des caractéristiques comme l’âge, le genre ou la race – permet de voir les évolutions dans le temps de ces caractéristiques, et de montrer si le système s’améliore ou se dégrade.

Ces bonnes pratiques ne se suffisent pas, rappelle Robinson, en évoquant l’exemple d’un outil de prédiction du risque de maltraitance et d’agression d’enfants du comté d’Allegheny en Pennsylvanie sur lequel avait travaillé Virginia Eubanks dans Automating inequality. La bonne question à se poser parfois consiste aussi à refuser la construction d’un système… ou de poser la question des moyens. Trop souvent, les systèmes algorithmiques visent d’abord et avant tout à gérer la pénurie quand l’enjeu devrait d’abord consister à y remédier. Trop souvent, leurs déploiements visent et produisent de la diminution de personnel et donc amoindrit l’interaction humaine. Le refus – que défendent nombre d’activistes, comme ceux présents à la conférence sur le refus technique organisée à Berkeley en 2020 ou les associations à l’origine du Feminist Data Manifest-No (voir également “Pour un féminisme des données”) – tient bien souvent, pour certains, du seul levier pour s’opposer à des projets par nature toxiques. Face à des moyens de discussion et d’écoute réduits à néant, l’opposition et le refus deviennent souvent le seul levier pour faire entendre une voix divergente. Dans le champ du social notamment, les travaux d’Eubanks ont montré que la mise en place de systèmes numériques produisent toujours une diminution des droits à l’encontre des plus démunis. Nombre de systèmes sociaux mis en place depuis (au Royaume-Uni, aux Pays-Bas, en Autriche, mais également en France – ce qu’il se passe actuellement autour des systèmes mis en place dans les CAF suit les mêmes logiques) sont en ce sens profondément dysfonctionnels. Les biais, les logiques austéritaires et libérales qui président au déploiement des systèmes ne produisent que la dégradation des systèmes sociaux et des services publics (« ce patrimoine de ceux qui n’en ont pas »), de la justice et de l’équité vers lesquels ils ne devraient jamais cesser de tendre. C’est bien l’inverse pourtant auquel on assiste. La numérisation accélérée des services publics, sous prétexte d’économie budgétaire, devient un levier de leur définancement et de la minimisation des droits et empêche les gens d’accéder à leurs droits et aux services. Depuis les travaux d’Eubanks, on constate finalement que partout, le déploiement de systèmes de traitements de masse des bénéficiaires d’aides ou de services publics est problématique, et la cause est autant à trouver dans les choix de développement que dans les considérations idéologiques qui président à ceux-ci. Partout, le but est de gérer la pénurie et de l’étendre, tout en diminuant les coûts. Le but n’est pas de faire des services publics qui rendent le service qu’on en attend, que de faire des services qui produisent des gains économiques, de la rentabilité. Et de l’accélérer… quoi qu’il en coûte.

Une histoire algorithmique exemplaire : affecter des reins à ceux qui en ont besoin

D’une manière un peu déstabilisante, Robinson ne nous explique pas comment le système d’attribution d’un greffon rénal calcule (c’est tout de même dommage de ne pas s’être essayé à l’exercice… Ainsi par exemple, on finit par comprendre que c’est un système par points qui préside à l’attribution où le but du côté du greffon est d’en avoir le moins possible, quand du côté du greffé, il est d’en avoir le plus possible). Robinson raconte plutôt la grande histoire de l’évolution de la transplantation rénale et l’évolution des débats éthiques qui l’ont accompagné. Il raconte l’histoire de la discussion d’un système technique avec la société et si cette histoire est exemplaire, ce n’est pas parce que le système d’attribution, l’algorithme d’appariement, serait plus vertueux que d’autres (Robinson termine son analyse en montrant que ce n’est pas le cas), mais parce qu’il démontre que ce qui est vertueux c’est la mise en discussion – ouverte, organisée, inclusive… – continue entre technique et société… Même quand elle se referme (par exemple quand il évoque la question de la prise en compte des problèmes liés à la géographie des dons), d’autres moyens permettent de l’ouvrir (en l’occurrence, le recours aux tribunaux). Ce qu’il montre, c’est que même quand les discussions se referment, les questions de justice et d’équité, d’équilibres des droits, finissent toujours par revenir, comme nous le rappelle Alain Supiot.

De l’introduction des questions éthiques

Robinson retrace l’histoire de la transplantation rénale en montrant les conséquences éthiques de l’évolution des connaissances médicales. Si la première tentative de transplantation à eu lieu au début du XXe siècle, longtemps, la question de l’immunologie, c’est-à-dire de l’acceptation d’un organe étranger dans le corps est restée obscure à la science. La première transplantation de rein réussie date de 1954 seulement, et elle était entre deux parfaits jumeaux, qui semblait la seule condition à la réussite de l’opération. A défaut de transplantation, la médecine a progressé sur un autre front, la dialyse, c’est-à-dire le fait de faire filtrer les toxines d’un patient non pas par un rein, mais par une machine, ce qu’on est parvenu à faire pendant la seconde guerre mondiale. En 1960, le docteur Scribner met au point le cathéter qui va permettre de prolonger la durée d’un patient sous dialyse (qui n’était que de quelques semaines), transformant le dysfonctionnement du rein de maladie fatale en maladie chronique et amenant un problème éthique chronique : comment trier les patients, à une époque où les appareils de dialyse sont encore extrêmement rares et coûteux ? Face à l’afflux des demandes, Scribner va avoir l’intuition de mettre en place un système de sélection qui ne soit pas uniquement médical. Pour élire les patients à la dialyse, il met en place un processus de sélection consistant en un avis médical pour déterminer l’éligibilité à la dialyse mais surtout il va mettre en place un comité de profanes chargés de trancher les décisions non-médicales d’attribution (comme de déterminer entre deux patients médicalement éligibles, lequel doit être prioritaire). Les membres de ce comité recevront des informations sur le fonctionnement de la dialyse et de la transplantation… mais devront décider des règles non médicales s’appliquant aux patients éligibles à une transplantation ou une dialyse. Très tôt donc, la réponse des limites de l’allocation dans des cas où les ressources sont rares a consisté à faire porter la problématique éthique à une communauté plus large – et pas seulement aux experts techniques. Lors de ses 13 premiers mois de fonctionnement, le Centre du rein de Seattle du docteur Scribner a dû considérer 30 candidats, 17 ayant été jugé médicalement aptes la dialyse, mais en écartant 7 du traitement.

D’autres centres de dialyse vont pourtant faire des choix différents : certains vont opter pour une approche, “premier arrivé, premier servi”. Les premiers critères de choix n’étaient pas sans opacités où sans jugements moraux : les patients pauvres, vieux ou appartenant à des minorités ethniques, ceux dont les vies sont plus chaotiques, ont été plus facilement écartés que d’autres. Malgré ses déficiences, ces interrogations ont permis de construire peu à peu la réponse éthique.

Ce qui va changer dans les années 60, c’est la généralisation de la dialyse (d’abord accessible aux vétérans de l’armée), le développement de la transplantation rénale en ayant recours à des donneurs provenant de la famille proche, puis, en 1972, la décision par le Congrès de rembourser les soins de dialyse. Cette évolution législative doit beaucoup aux témoignages de patients devant les représentants, expliquant la difficulté à accéder à ce type de soins. Le remboursement des soins va permettre d’élargir le public de la dialyse, de créer des centres dédiés et de la rendre moins coûteuse, non seulement pour les patients, mais aussi pour la médecine. Cette prise en charge de la dialyse n’est pas sans incidence d’ailleurs, souligne Robinson, notamment quand les soins liés à une transplantation, couvrant la prise d’immunosuppresseurs, eux, ne courent que sur 3 ans, alors que les soins de dialyse, eux sont pris en charge à vie. Même encore aujourd’hui (et plus encore aux Etats-Unis, ou la prise en charge des soins de santé est difficile), cette logique subsiste et fait que certains patients ne peuvent se permettre de s’extraire de la dialyse au profit d’une transplantation. En moyenne, une dialyse, consiste en 3 traitements par semaine, 4 heures de traitement par session. Coûteuse, elle reste surtout dangereuse, le taux de mortalité des patients sous dialyse est encore important à cette époque. Sans compter que l’augmentation du nombre de patients sous dialyse va avoir un impact sur l’augmentation de la demande de transplantation…

Dans les années 60, la découverte de médications immunosuppressives va permettre de faire baisser considérablement le rejet des greffons et d’élargir le nombre de greffes : en quelques années, on va passer d’une mortalité post transplantation de 30% à un taux de survie de 80%.

Un algorithme, mais sûr quels critères ?

En 1984, les spécialistes de la greffe de rein, Tom Starzl et Goran Klintmalm reçoivent une demande de greffe de toute urgence pour une petite fille de 4 ans. Ce drame public, très médiatisé, va reposer la question de l’attribution. La loi nationale sur la transplantation d’organe votée en 1984 va organiser l’encadrement de l’attribution et décider de la création d’un système national par ordinateur pour apparier les organes des donneurs aux patients, dont la réalisation est confiée au Réseau d’approvisionnement en organe et de transplantation (OPTN, Organ procurement and transplantation network) et qui doit faire discuter, comme les premiers comités de Scribner, des médecins et le public. A nouveau, deux écoles s’affrontent. Celle qui propose le premier arrivé, premier servi, et une autre qui propose une rationalisation médicale de la priorisation.

Cette priorisation va longtemps reposer sur l’appariement antigénique… Ce typage des tissus, consiste a prédire biologiquement la meilleure relation entre les données biomédicales d’un donneur et celles d’un receveur. Cette prédiction ne va cesser d’évoluer avec l’avancée des connaissances et l’évolution des standards de soin. Cet appariement permet de médicaliser le choix, mais repose sur la croyance que cet appariement est important pour la plupart des cas. Pour Robinson, nous avons là un expédient moral car les caractéristiques biomédicales ne sont pas toujours un obstacle insurmontable pour la survie des greffons de reins. Le problème, c’est que les antigènes ne sont pas seulement un prédicteur de la compatibilité entre donneur et receveur, ils sont aussi statistiquement corrélés à la race. Les afro-américains ont trois fois plus de risques d’avoir une maladie des reins en stade terminal que les blancs, alors que la majorité des donneurs ressemblent à la population américaine et sont donc blancs. La prise en compte antigénique signifie proportionnellement moins d’appariements pour les noirs.

Un autre problème va donner lieu à de longues discussions : à partir de quand prendre en compte une demande de transplantation ? La règle a longtemps été à l’inscription d’un patient sur la liste d’attente… Or, cette inscription sur la liste d’attente n’est pas la même pour tous les patients : le niveau social, la couleur de peau et l’accès aux soins de santé sont là encore producteurs d’inégalités. En fait, le souhait de ne vouloir prendre en compte que des critères dits médicaux pour l’attribution d’un greffon, fait l’impasse sur ce qui ne relève pas du médical dans le médical et notamment ses pesanteurs sociales. Ce que montre très bien le livre de Robinson, c’est combien les discussions internes comme le débat public ne cessent de se modifier dans le temps, à mesure que la connaissance progresse.

En 1987, l’UNOS (United network for Organ Sharing) qui opère l’OPTN, décide d’opter pour un algorithme d’allocation déjà utilisé localement à Pittsburgh (là encore, soulignons le, on retrouve une constante dans le déploiement de procédures techniques nationales : celle de s’appuyer sur des innovateurs locaux… Le sociologue Vincent Dubois raconte la même histoire quand il évoque la généralisation du contrôle automatisé à l’égard des bénéficiaires de l’aide sociale dans les CAF). Cet algorithme prend en compte de multiples facteurs : le temps d’attente d’un patient, la comptabilité antigénique et l’urgence médicale… avant d’opter deux ans plus tard pour renforcer dans les critères la question de l’appariement antigénique, alors que de nombreux spécialistes s’y opposent prétextant que la preuve de leur importance n’est pas acquise. La contestation gagne alors du terrain arguant que la question antigénique est insignifiante dans la plupart des cas de transplantation et qu’elle est surtout discriminatoire. En 1991, l’inspecteur général de la Santé américain souligne que les noirs attendent un rein deux à trois fois plus longtemps que les blancs (jusqu’à 18 mois, contre 6 !). Sans compter que ceux en faveur de l’appariement antigénique sont également ceux qui valorisent la distribution géographique, qui elle aussi à un impact discriminatoire.

Mais à nouveau, comme aux premiers temps de la transplantation, pour équilibrer les débats, une infrastructure de gouvernance ouverte et équilibrée s’est installée. Avec l’OPTN d’abord, qui s’est imposé comme une organisation caractérisée par la transparence, la consultation et la décision (par le vote). L’OPTN est le modèle de nombreux comités de parties prenantes qui prennent en compte la représentation des usagers et discutent des changements à apporter à des systèmes via d’innombrables conférences ouvertes au public qui vont se déplacer à travers le pays pour permettre la participation. Les efforts de cette structure ont été soutenus par une autre, qui lui est indépendante : le Scientific Registry of Transplant Recipents (SRTR), dont l’une des fonctions est de produire une compréhension des modèles et des impacts des changements envisagés par l’OPTN. Les visualisations et simulations que va produire le SRTR vont bien souvent jouer un rôle vital dans les débats. Simuler les conséquences d’un changement de modèle d’affectation permet d’en saisir les orientations, permet de comprendre qui va en bénéficier et qui risque d’en pâtir. Outre ces institutions phares, il faut ajouter les autorités de santé, les représentants politiques, la communauté médicale, les associations de patients, les décisions de justice… qui s’imbriquent et s’entremêlent dans une grande discussion médico-politique.

Des critères qui évoluent avec la science et le débat public

Durant les années 90, les progrès de l’immunosuppression renforcent la critique des antigènes, les rendant encore moins critiques dans le succès de la transplantation. L’UNOS procéde à plusieurs changements à son système d’affectation pour réduire le rôle des antigènes dans l’attribution des greffons (et atténuer le fossé des discriminations), au profit du temps d’attente. Dans les années 90, la barrière des groupes sanguins est également dépassée.

En 2003, un processus de discussion pour reconcevoir le système d’attribution des greffons qui semble en bout de course est à nouveau lancé. Pour beaucoup, “l’algorithme d’allocation des reins était devenu un collage de priorités”. A partir de 2003, le débat s’enflamme sur la question des listes d’attentes : là encore, la discrimination est à l’oeuvre, les afro-américains n’étant pas placé sur les listes d’attentes aussi rapidement ou dans les mêmes proportions que les blancs. Les patients noirs attendent plus longtemps avant d’être inscrits en liste d’attente, souvent après plusieurs années de dialyse, notamment parce que l’accès aux soins aux Etats-unis reste fortement inégalitaire. Pour corriger cette disparité, en 2002, on propose non plus de partir du moment où un patient est ajouté à une liste d’attente, mais de partir du moment où un patient commence une dialyse. Pourtant, à cette époque, la question ne fait pas suffisamment consensus pour être adoptée.

Une autre critique au premier système de calcul est son manque d’efficacité. Certains proposent que les reins soient affectés prioritairement afin de maximiser la durée de vie des patients (au détriment des patients en attente les plus âgés). D’autres discussions ont lieu sur les patients sensibles, des patients qui ont développé des antigènes spécifiques qui rendent leur transplantation plus à risque, comme ceux qui ont déjà eu une transplantation, des femmes qui ont eu plusieurs naissances ou des patients qui ont reçu beaucoup de transfusions par exemple. Ce degré de sensibilité est calculé par un score : le CPRA, calculated panel reactive antibody score. L’un des enjeux est de savoir si on doit favoriser un patient qui a déjà reçu une transplantation sur un autre qui n’en a pas encore eu : le fait d’avoir une double chance paraissant à ceux qui n’en ont pas encore eu une, comme une injustice. L’introduction de ce nouveau calcul souligne combien les calculs dépendent d’autres calculs. L’intrication des mesures et la complexité que cela génère n’est pas un phénomène nouveau.

L’utilité contre l’équité : l’efficacité en question

La grande question qui agite les débats qui vont durer plusieurs années, explique Robinson, consiste à balancer l’utilité (c’est-à-dire le nombre total d’années de vie gagnées) et l’équité (le fait que chacun ait une chance égale). Des médecins proposent d’incorporer au système d’allocation une mesure du bénéfice net (le LYFT : Life years from Transplant), visant à classer les candidats selon le nombre d’années de vie qu’ils devraient gagner s’ils reçoivent une greffe. Cette formule, présentée en 2007, est compliquée : elle prend en compte une douzaine de facteurs (l’âge, l’indice de masse corporelle, le temps passé à vivre avec un problème rénal, la conformité antigénique…). En utilisant les données passées, le STR peut modéliser le temps de survie des patients en liste d’attente, le temps de survie post-transplantation, pour chaque patient et chaque appariement. Les modélisations présentées par le STR montrent que LYFT devrait avoir peu d’effet sur la distribution raciale et sanguine des receveurs, mais qu’il devrait éloigner de la greffe les diabétiques, les candidats sensibles et âgés, au profit des plus jeunes. Le calcul du temps de vie cumulé que le système devrait faire gagner peut paraître impressionnant, mais le recul de la chance pour les seniors est assez mal accueilli par les patients. L’efficacité semble mettre à mal l’équité. Les discussions s’enlisent. Le comité demande au ministère de la santé, si l’usage de l’âge dans les calculs est discriminatoire, sans recevoir de réponse. Une version finale et modifiée de Lyft est proposée à commentaire. Lyft montre une autre limite : les modèles de calculs de longévité sur lesquels il repose ne sont pas très compréhensibles au public. Ce qui permet de comprendre une autre règle des systèmes : quand l’explicabilité n’est pas forte, le système reste considéré comme défaillant. Au final, après plusieurs années de débats, Lyft est abandonné.

En 2011, une nouvelle proposition de modification est faite qui propose de concilier les deux logiques : d’âge et de bénéfice net. Les greffons sont désormais évalués sur un score de 100, où plus le score est bas, meilleur est le greffon. Les patients, eux, sont affecté par un Post-Transplant Survival score (EPTS), qui comme Lyft tente d’estimer la longévité depuis 4 facteurs seulement : l’âge, le temps passé en dialyse, le diabète et si la personne a déjà reçu une transplantation, mais sans évaluer par exemple si les patients tolèrent la dialyse en cas de non transplantation… Pour concilier les logiques, on propose que 20% des greffons soient proposés prioritairement à ceux qui ont le meilleur score de longévité, le reste continuant à être attribué plus largement par âge (aux candidats qui ont entre 15 ans de plus ou de moins que l’âge du donneur). Là encore, pour faire accepter les modifications, le comité présente des simulations. Plus équilibré, la règle des 20/80 semble plus compréhensible, Mais là encore, il réduit les chances des patients de plus de 50 ans de 20%, privilégiant à nouveau l’utilité sur l’équité, sans répondre à d’autres problèmes qui semblent bien plus essentiels à nombre de participants, notamment ceux liés aux disparités géographiques. Enfin, la question de l’âge devient problématique : la loi américaine contre la discrimination par l’âge a été votée en 2004, rappelant que personne ne peut être discriminé sur la base de son âge. Ici, se défendent les promoteurs de la réforme, l’âge est utilisé comme un proxy pour calculer la longévité. Mais cela ne suffit pas. Enfin, les patients qui ont 16 ans de plus ou de moins que l’âge du donneur n’ont pas moins de chance de survivre que ceux qui ont 14 ans de différence avec le donneur. Ce critère aussi est problématique (comme bien souvent les effets de seuils des calculs, qui sont souvent strictes, alors qu’ils devraient être souples).

La surveillance du nouveau système montre d’abord que les receveurs de plus de 65 ans sont défavorisés avant de s’améliorer à nouveau (notamment parce que, entre-temps, la crise des opioïdes et la surmortalité qu’elle a engendré a augmenté le nombre de greffons disponibles). Le suivi longitudinal de l’accès aux greffes montre qu’entre 2006 et 2017, l’équité raciale a nettement progressé, notamment du fait de la prise en compte de la date de mise sous dialyse pour tous. Les différences entre les candidats à la greffe, selon la race, se resserrent.

En septembre 2012, une nouvelle proposition est donc faite qui conserve la règle des 20/80, mais surtout qui intègre le calcul à partir du début de l’entrée en dialyse des patients, atténue l’allocation selon le groupe sanguin… autant de mesures qui améliorent l’accès aux minorités. Cette proposition finale est à nouveau discutée entre septembre et décembre 2012, notamment sur le fait qu’elle réduit l’accès aux patients les plus âgés et sur le compartimentage régional qui perdure. En juin 2013, le conseil de l’OPTN approuve cependant cette version et le nouvel algorithme entre en fonction en décembre 2014. Dix ans de discussion pour valider des modifications… Le débat public montre à la fois sa force et ses limites. Sa force parce que nombre d’éléments ont été discutés, recomposés ou écartés. Ses limites du fait du temps passé et que nombre de problèmes n’ont pas été vraiment tranchés. Décider prend du temps. Robinson souligne combien ces évolutions, du fait des débats, sont lentes. Il a fallu 10 ans de débats pour que l’évolution de l’algorithme d’attribution soit actée. Le débat entre utilité et équité n’a pu se résoudre qu’en proposant un mixte entre les deux approches, avec la règle du 20/80, tant ils restent irréconciliables. Mais si le processus a été long, le consensus obtenu semble plus solide.

La lente déprise géographique

Le temps d’acheminement d’un greffon à un donneur a longtemps été une donnée essentielle de la greffe, tout comme la distance d’un malade à une unité de dialyse, ce qui explique, que dès le début de la greffe et de la dialyse, le critère géographique ait été essentiel.

L’allocation de greffon est donc circonscrite à des zonages arbitraires : 58 zones, chacune pilotées par un organisme de contrôle des allocations, découpent le territoire américain. Le système montre pourtant vite ses limites, notamment parce qu’il génère de fortes discriminations à l’accès, notamment là où la population est la plus nombreuse et la demande de greffe plus forte. Les patients de New York ou Chicago attendent des années, par rapport à ceux de Floride. Plusieurs fois, il va être demandé d’y mettre fin (hormis quand le transport d’organes menace leur intégrité). Pourtant, les zones géographiques vont s’éterniser. Il faut attendre 2017 pour que l’UNOS s’attaque à la question en proposant un Score d’accès à la transplantation (ATS, Access to Transplant Score) pour mesurer l’équité de l’accès à la transplantation. L’outil démontre ce que tout le monde dénonçait depuis longtemps : la géographie est un facteur plus déterminant que l’âge, le groupe sanguin, le genre, la race ou les facteurs sociaux : selon la zone dont dépend le receveur (parmi les 58), un même candidat pourra attendre jusqu’à 22 fois plus longtemps qu’un autre ! Cette question va évoluer très rapidement parce que la même année, l’avocat d’une patiente qui a besoin d’une greffe attaque en justice pour en obtenir une depuis une zone où il y en a de disponibles. Fin 2017, l’UNOS met fin au zonage pour le remplacer par une distance concentrique par rapport à l’hôpital du donneur, qui attribue plus ou moins de points au receveur selon sa proximité. Le plus étonnant ici, c’est qu’un critère primordial d’inégalité ait mis tant d’années à être démonté.

Le scoring en ses limites

Les scientifiques des données de l’UNOS (qui ont mis en place l’ATS) travaillent désormais à améliorer le calcul de score des patients. Chaque patient se voit attribuer un score, dont la précision va jusqu’à 16 chiffres après la virgule (et le système peut encore aller plus loin pour départager deux candidats). Mais se pose la question du compromis entre la précision et la transparence. Plus il y a un chiffre précis et moins il est compréhensible pour les gens. Mais surtout, pointe Robinson, la précision ne reflète pas vraiment une différence médicale entre les patients. “Le calcul produit une fausse précision”. Ajouter de la précision ne signifie pas qu’un candidat a vraiment un meilleur résultat attendu qu’un autre s’il est transplanté. La précision du calcul ne fait que fournir un prétexte technique pour attribuer l’organe à un candidat plutôt qu’à un autre, une raison qui semble extérieurement neutre, alors que la précision du nombre ne reflète pas une différence clinique décisive. Pour Robinson, ces calculs, poussés à leur extrême, fonctionnent comme la question antigénique passée : ils visent à couvrir d’une neutralité médicale l’appariement. En fait, quand des candidats sont cliniquement équivalents, rien ne les départage vraiment. La précision du scoring est bien souvent une illusion. Créer une fausse précision vise surtout à masquer que ce choix pourrait être aussi juste s’il était aléatoire. Robinson souhaite voir dans cette question qu’adressent les data scientist de l’UNOS, le retour de l’interrogation sempiternelle de ne pas transformer une question technique en une question morale. Il paraîtra à d’autres assez étonnant qu’on continue à utiliser la précision et la neutralité des chiffres pour faire croire à leur objectivité. Pourtant, c’est là une pratique extrêmement répandue. On calcule des différences entre les gens via une précision qui n’a rien de médicale, puisqu’au final, elle peut considérer par exemple, que le fait d’habiter à 500 mètres d’un hôpital fait la différence avec une personne qui habite à 600 mètres. En fait, l’essentiel des candidats est si semblable, que rien ne les distingue dans la masse, les uns des autres. Faire croire que la solution consiste à calculer des différences qui n’ont plus rien de scientifiques est le grand mensonge de la généralisation du scoring. C’est trop souvent l’écueil moral des traitements de masse qui justifient le recours aux algorithmes. Mais le calcul ne le résout pas. Il ne fait que masquer sous le chiffre des distinctions problématiques (et c’est un problème que l’on retrouve aujourd’hui dans nombre de systèmes de scoring, à l’image de Parcoursup). Le calcul d’attribution de greffes de rein n’est pas encore exemplaire.

Faire mieux

Dans sa conclusion, Robinson tente de remettre cette histoire en perspective. Trop souvent, depuis Upturn, Robinson a vu des systèmes conçus sans grande attention, sans grands soins envers les personnes qu’ils calculaient. Trop de systèmes sont pauvrement conçus. “Nous pouvons faire mieux.”

Dans la question de l’attribution de greffes, la participation, la transparence, la prévision et l’audit ont tous joué un rôle. Les gens ont élevé leurs voix et ont été entendus. Pourquoi n’en est-il pas de même avec les autres algorithmes à fort enjeu ? Robinson répond rapidement en estimant que la question de la transplantation est unique notamment parce qu’elle est une ressource non marchande. Je ne partage pas cet avis. Si le système est l’un des rares îlots de confiance, son livre nous montre que celle-ci n’est jamais acquise, qu’elle est bien construite, âprement disputée… Cette histoire néanmoins souligne combien nous avons besoin d’une confiance élevée dans un système. “La confiance est difficile à acquérir, facile à perdre et pourtant très utile.” L’exemple de la transplantation nous montre que dans les cas de rationnement la participation du public est un levier primordial pour assurer l’équité et la justice. Il montre enfin que les stratégies de gouvernance peuvent être construites et solides pour autant qu’elles soient ouvertes, transparentes et gérées en entendant tout le monde.

Gérer la pénurie pour l’accélérer… et faire semblant d’arbitrer

Certes, construire un algorithme d’une manière collaborative et discutée prend du temps. Les progrès sont lents et incrémentaux. Les questions et arbitrages s’y renouvellent sans cesse, à mesure que le fonctionnement progresse et montre ses lacunes. Mais les systèmes sociotechniques, qui impliquent donc la technique et le social, doivent composer avec ces deux aspects. La progression lente mais nette de l’équité raciale dans l’algorithme d’affectation des reins, montre que les défis d’équité que posent les systèmes peuvent être relevés. Reste que bien des points demeurent exclus de ce sur quoi l’algorithme concentre le regard, à l’image de la question des remboursements de soins, limités à 3 ans pour la prise en charge des médicaments immunosuppresseurs des transplantés alors qu’ils sont perpétuels pour les dialysés. Cet enjeu pointe qu’il y a encore des progrès à faire sur certains aspects du système qui dépassent le cadre de la conception de l’algorithme lui-même. Les questions éthiques et morales évoluent sans cesse. Sur la transplantation, la prochaine concernera certainement la perspective de pouvoir avoir recours à des reins de cochons pour la transplantation. Les xénogreffes devraient être prêtes pour les essais médicaux très prochainement, et risquent de bouleverser l’attribution.

Robinson évoque les algorithmes de sélection des écoles de la ville de New York, où chaque école peut établir ses propres critères de sélection (un peu comme Parcoursup). Depuis peu, ces critères sont publics, ce qui permet un meilleur contrôle. Mais derrière des critères individuels, les questions de discrimination sociale demeurent majeures. Plusieurs collectifs critiques voudraient promouvoir un système où les écoles ne choisissent pas leurs élèves selon leurs mérites individuels ou leurs résultats à des tests standardisés, mais un système où chaque école doit accueillir des étudiants selon une distribution représentative des résultats aux tests standardisés, afin que les meilleurs ne soient pas concentrés dans les meilleures écoles, mais plus distribués entre chaque école. C’est le propos que porte par exemple le collectif Teens Take Change. De même, plutôt que d’évaluer le risque de récidive, la question pourrait être posée bien autrement : plutôt que de tenter de trouver quel suspect risque de récidiver, la question pourrait être : quels services garantiront le mieux que cette personne se présente au tribunal ou ne récidive pas ? Déplacer la question permet de déplacer la réponse. En fait, explique très clairement Robinson, les orientations des développements techniques ont fondamentalement des présupposés idéologiques. Les logiciels de calcul du risque de récidive, comme Compass, reposent sur l’idée que le risque serait inhérent à des individus, quand d’autres systèmes pourraient imaginer le risque comme une propriété des lieux ou des situations, et les prédire à la place. (pour InternetActu.net, j’étais revenu sur les propos de Marianne Bellotti, qui militait pour des IA qui complexifient plutôt qu’elles ne simplifient le monde, qui, sur la question du risque de récidive, évoquait le système ESAS, un logiciel qui donne accès aux peines similaires prononcées dans des affaires antérieures selon des antécédents de condamnations proches, mais, là où Compass charge l’individu, ESAS relativise et aide le juge à relativiser la peine, en l’aidant à comparer sa sentence à celles que d’autres juges avant lui ont prononcé). Les algorithmes qui rationnent le logement d’urgence, comme l’évoquait Eubanks dans son livre, visent d’abord à organiser la pénurie, et finalement permettent de mieux écarter le problème principal, celui de créer plus de logements sociaux. Au contraire même, en proposant un outil d’administration de la pénurie, bien souvent, celle-ci peut finalement être encore plus optimisée, c’est-à-dire plus rabotée encore. Les systèmes permettent de créer des “fictions confortables” : la science et le calcul tentent de neutraliser et dépolitiser des tensions sociales en nous faisant croire que ces systèmes seraient plus juste que le hasard, quand une “loterie aléatoire refléterait bien mieux la structure éthique de la situation”.

Participer c’est transformer

La force de la participation n’est pas seulement dans l’apport d’une diversité, d’une pluralité de regards sur un problème commun. La participation modifie les regards de tous les participants et permet de créer des convergences, des compromis qui modulent les systèmes, qui modifient leur idéologie. Au contact d’autres points de vues, dans une ambiance de construction d’un consensus, les gens changent d’avis et modèrent leurs positions, souligne très pertinemment Robinson. Certes, la participation est un dispositif complexe, long, lent, coûteux. Mais ses apports sont transformateurs, car la délibération commune et partagée est la seule à même à pouvoir intégrer de la justice et de l’équité au cœur même des systèmes, à permettre de composer un monde commun. “Une compréhension partagée bénéficie d’une infrastructure partagée”. Pour produire une gouvernance partagée, il faut à la fois partager la compréhension que l’on a d’un système et donc partager l’infrastructure de celui-ci. Les jurés sont briefés sur les enjeux dont ils doivent débattre. Les participants d’un budget citoyens également. La participation nécessite la transparence, pas seulement des données et des modalités de traitement, mais aussi des contextes qui les façonnent. Cela signifie qu’il est toujours nécessaire de déployer une infrastructure pour soutenir le débat : quand elle est absente, la conversation inclusive et informée tend à ne pas être possible. Dans le cas de la transplantation, on l’a vu, les ressources sont innombrables. Les organismes pour les produire également – et leur indépendance est essentielle. Les visualisations, les simulations se sont souvent révélées essentielles, tout autant que les témoignages et leur pluralité. Pour Robinson, cette implication des publics, cette infrastructure pour créer une compréhension partagée, ces gouvernances ouvertes sont encore bien trop rares au-delà du domaine de la santé… alors que cela devrait être le cas dans la plupart des systèmes à haut enjeu. “La compréhension partagée bénéficie d’une infrastructure partagée, c’est-à-dire d’investissements qui vont au-delà de l’effort qu’implique la construction d’un algorithme en soi.” Certes, concède-t-il, la participation est très coûteuse. Pour Robinson : “Nous ne pouvons pas délibérer aussi lourdement sur tout”. Bien sûr, mais il y a bien trop d’endroits où nous ne délibérons pas. Faire se rejoindre l’utilité et l’équité prend du temps, mais elles ne sont irréconciliables que là où aucune discussion ne s’engage. En fait, contrairement à Robinson, je pense que nous ne pouvons pas vivre dans des systèmes où la justice n’est pas présente ou le déséquilibre entre les forces en présence est trop fort. Les systèmes injustes et oppressifs n’ont qu’un temps. L’auto-gouvernement et la démocratie ont toujours pris du temps, mais ils demeurent les moins pires des systèmes. L’efficacité seule ne fera jamais société. Cette logistique de la participation est certainement le coût qui devrait balancer les formidables économies que génère la dématérialisation. Mais surtout, convient Robinson, la participation est certainement le meilleur levier que nous avons pour modifier les attitudes et les comportements. Plusieurs études ont montré que ces exercices de discussions permettent finalement d’entendre des voies différentes et permettent aux participants de corriger leurs idées préconçues. La participation est empathique.

Le risque d’une anesthésie morale par les chiffres

Enfin, Robinson invite à nous défier de la quantification, qu’il qualifie “d’anesthésiant moral“. “Les algorithmes dirigent notre attention morale”, explique-t-il. Le philosophe Michael Sacasas parle, lui, de machines qui permettent “l’évasion de la responsabilité”. Quand on regarde le monde comme un marché, un score “semble toujours dépassionné, impartial et objectif”, disaient Marion Fourcade et Kieran Healy. Pourtant, la quantification n’est pas objective, parce qu’elle a des conséquences normatives et surtout que le chiffre nous rend indifférent à la souffrance comme à la justice (c’est ce que disait très bien le chercheur italien Stefano Diana, qui parlait de psychopathologisation par le nombre). C’est également ce que disaient les juristes Guido Calabresi et Philip Bobbitt dans leur livre, Tragic Choices (1978) : “En faisant en sorte que les résultats semblent nécessaires, inévitables, plutôt que discrétionnaires, l’algorithme tente de convertir ce qui est tragiquement choisi en ce qui n’est qu’un malheur fatal. Mais généralement, ce n’est qu’un subterfuge, car, bien que la rareté soit un fait, une décision particulière… (par exemple, celle de savoir qui recevra un organe dont on a besoin de toute urgence) est rarement nécessaire au sens strict du terme.” C’est tout le problème du scoring jusqu’à 16 décimales, qui ne distingue plus de différences médicales entre des patients, mais les discrétise pour les discrétiser. La fausse rationalité du calcul, permet “d’esquiver la réalité que de tels choix, sont, à un certain niveau, arbitraires”. Ces subterfuges par le calcul se retrouvent partout. Poussé à son extrême, le score produit des différences inexistantes. Pour Robinson, “nous apprenons à expliquer ces choix impossibles dans des termes quantitatifs neutres, plutôt que de nous confronter à leur arbitraire”. Pour ma part, je pense que nous n’apprenons pas. Nous mentons. Nous faisons passer la rationalité pour ce qu’elle n’est pas. Nous faisons entrer des critères arbitraires et injustes dans le calcul pour le produire. Quand rien ne distingue deux patients pour leur attribuer un greffon, on va finir par prendre un critère ridicule pour les distinguer, plutôt que de reconnaître que nous devrions avoir recours à l’aléatoire quand trop de dossiers sont similaires. Et c’est bien le problème que souligne Robinson à la fin de son inspection du système de calcul de l’attribution de greffe de rein : la plupart des patients sont tellement similaires entre eux que le problème est bien plus relatif à la pénurie qu’autre chose. Le problème est de faire penser que les critères pour les distinguer entre eux sont encore médicaux, logiques, rationnels.

Pour Robinson, les algorithmes sont des productions de compromis, d’autant plus efficaces qu’ils peuvent être modifiés (et ne cessent de l’être) facilement. Leur adaptabilité même nous invite à tisser un lien, trop inexistant, entre la société et la technique. Puisque les modifier n’est pas un problème, alors nous devrions pouvoir en discuter en permanence et avoir une voix pour les faire évoluer. L’expertise technique n’est jamais et ne devrait jamais être prise comme une autorité morale. La participation ne devrait pas être vue comme quelque chose de lourd et de pesant, mais bien comme le seul levier pour améliorer la justice du monde. Robinson nous invite à imaginer un monde où les plus importants systèmes techniques refléteraient bien des voix, même la nôtre. Pour l’instant, ce que l’on constate partout, c’est que tout est fait pour ne pas les écouter.

Ce que nous dit le livre de Robinson, c’est combien la question de l’équité reste primordiale. Et qu’améliorer un système prend du temps. La justice n’est pas innée, elle se construit lentement, patiemment. Trop lentement bien souvent. Mais le seul outil dont nous disposons pour améliorer la justice, c’est bien le débat, la contradiction et la discussion. Malgré sa complexité et sa lenteur, la question du débat public sur les systèmes est essentielle. Elle ne peut ni ne doit être un débat d’experts entre eux. Plusieurs fois, dans ces débats, Robinson montre l’importance des patients. C’est leurs interventions lors des séances publiques qui modifient les termes du débat. Construire des systèmes robustes, responsables, nécessite l’implication de tous. Mais ce qui est sûr c’est qu’on ne construit aucun système responsable quand il n’écoute pas les voix de ceux pris dans ces filets. Nous devons exiger des comités de parti de prenantes partout où les systèmes ont un impact fort sur les gens. Nous devons nous assurer d’améliorations incrémentales, non pas imposées par le politique, mais bien discutées entre égaux, dans des comités où les experts ont autant la voix que les calculés. Aujourd’hui, c’est ce qui manque dans la plupart des systèmes. Y faire entrer les voix des gens. C’est la principale condition pour faire mieux, comme nous y invite David Robinson.

Hubert Guillaud

A propos du livre de David G. Robinson, Voices in the code, a story about people, their values, and the algorithm they made, Russell Sage Foundation, 2022, 212 pages. Cet article a été publié originellement sur le blog de Hubert Guillaud, le 24 novembre 2022.

article précédent ↜ « L’internet des familles modestes : les usages sont-ils les mêmes du haut au bas de l’échelle sociale ?