La fiabilité n’est pas si simple

Dans les systèmes complexes, la fiabilité est plus compliquée à atteindre.

Hubert Guillaud

La démonstration est édifiante. En introduisant la même image d’un suspect dans deux systèmes de reconnaissance faciale différents travaillant pourtant sur une même base d’images de correspondances possibles, aucun des deux systèmes ne renvoient les mêmes correspondances dans leurs 10 meilleurs résultats respectifs ! Ce qui devrait porter un discrédit total sur les technologies de reconnaissances faciales, nous enseigne pourtant bien d’autres choses, qui dépassent de beaucoup cette seule technologie. A savoir que la fiabilité technologique est bien plus relative qu’on le pense !

Image : Un suspect et 10 propositions de matching depuis 2 algorithmes de reconnaissance faciale différents exploitants la même base de données. Aucune correspondance ! Image extraite de Clare Garvie, Forensic without science, 2022

La reconnaissance faciale ne repose pas seulement, comme on a tendance à le penser, sur une représentation mathématique des visages, réduits à des gabarits géométriques, comme l’expliquait Kate Crawford dans son excellent Contre-Atlas de l’intelligence artificielle, dans une forme de phrénologie elle-même extrêmement problématique, mais qu’on pourrait croire objective, faite de mesures crâniennes et de mesures des écarts du nez, des sourcils ou des yeux… mais dépend de nombreux autres éléments. La qualité de l’image (le fait qu’elle soit pixellisée ou floue, sombre ou claire, l’orientation du visage du suspect…) a un impact direct sur la fiabilité du résultat, sans que des normes de qualité minimales ne soient requises ou que les bonnes ou mauvaises pratiques d’utilisation de ces systèmes ne soient clairement documentées ou comprises. La qualité des bases de données dans lesquelles les agents vont chercher des correspondances vont avoir elles-mêmes une influence, selon l’ancienneté des images, leurs qualités, les poses… 

La présentation de la liste des correspondances elle-même est bien souvent déficiente, présentant un score de matching qui n’explique pas les raisons du score produit pour chaque proposition, ce qui est problématique. Une première photo peut avoir un bon matching du fait de son éclairage, une autre parce que l’angle de prise de vue est proche de la photo du suspect introduite… en plus d’autres concordances. Enfin, bien souvent, ces listes de correspondance vont être augmentées d’autres données qui n’ont pas été prises en compte par le calcul, mais qui vont avoir un impact sur l’appréciation des résultats, notamment l’âge, le poids, la taille, le sexe, la couleur de peau des suspects, le lieu d’habitation… ou leur historique criminel bien sûr, qui vont avoir tendance à rapprocher un voleur d’un autre voleur plutôt que d’un contrevenant au code de la route… Au risque de privilégier un suspect pour qui la machine propose une moindre correspondance mais qui a été arrêté dans une affaire similaire. Sans parler enfin des innombrables biais de la façon dont cette correspondance pourra être corroborée par un témoin par exemple… en ne lui présentant qu’une image plutôt que plusieurs… 

Ces exemples nous montrent surtout combien la fiabilité des systèmes sait être défaillante, peinant à identifier ce qu’ils sont censé identifier, comme le teint de peau, les traits de visages ou les écarts d’âge… Les machines sont aussi mauvaises que les humains pour identifier les personnes. Chez les humains aussi les taux d’erreurs à identifier les gens varient considérablement selon la qualité de l’image, la pose, l’expression, l’âge, la couleur de peau… Si on identifie très bien nos proches, on a souvent beaucoup de mal avec les autres. Et à mesure qu’on multiplie les paramètres à prendre en compte, dans un cas comme dans l’autre, la fiabilité n’est pas toujours renforcée, au contraire. 

Mais le plus étonnant ici, c’est notre choix d’utiliser des systèmes non fiables qui n’apportent pas de garanties suffisantes contre leurs erreurs et les biais qu’ils génèrent dans la présentation même de leurs résultats. Nous sommes capables de produire des systèmes complexes, puissants… et défaillants. Et dans notre illusion de puissance, bien souvent, le manque de fiabilité est l’élément que nous n’interrogeons pas assez. C’est aujourd’hui extrêmement visible avec les systèmes d’intelligence artificielle générative, mais nombre de nos outils techniques reposent sur des défaillances problématiques voire systémiques. Que ce soit la publicité programmatique, moteur de l’économie numérique. Et plus encore, les algorithmes de calcul des droits sociaux, qui, des Pays-Bas à la France, ont tous montré leurs limites. La Cnaf elle-même reconnaissait qu’elle n’avait pas audité ses algorithmes de scoring pour vérifier qu’ils ne produisaient pas de discriminations. Pourtant, la règle devrait rester assez mnémotechnique : il n’y a pas de puissance sans défaillance.