Le problème auquel nous sommes confrontés dans les systèmes de recrutement automatisés est que ni les postulants ni les départements RH ni les régulateurs ni le grand public ne savent très bien comment les CV sont inspectés et scorés. Les candidats savent rarement si ces outils sont la seule raison pour laquelle les entreprises les rejettent – et aucun de ces systèmes n’explique aux utilisateurs comment ils ont été évalués. Pourtant, les exemples flagrants de défaillances spécifiques sont nombreux, sans qu’il soit toujours possible de prouver leurs défaillances systémiques.
Dans son livre, The Algorithm : How AI decides who gets hired, monitored, promoted, and fired and why we need to fight back now (L’algorithme : comment l’IA décide de qui sera embauché, surveillé, promu et viré et pourquoi nous devons riposter, Hachette, 2024, non traduit), la journaliste Hilke Schellmann donne beaucoup la parole à des individus qui ont bataillé contre des systèmes : une développeuse black très compétente discriminée en continue, un data scientist écarté sans raisons de postes pour lesquels il était plus que compétent… un candidat d’une cinquantaine d’années, excédé qui finit par changer sa date de naissance et se voit magiquement accepté aux candidatures où il était refusé ! Le testing systémique des outils d’embauche automatisés est encore trop rare et trop souvent individuel… Mais il montre bien souvent combien ces systèmes sont défaillants, à l’image de celui initié récemment par Bloomberg : les journalistes ont demandé à ChatGPT de classer des CV dont le seul élément modifié était le prénom et le nom des candidats. Sans surprise, les CV avec des noms à consonance afro-américaine étaient à chaque fois les plus mal classés !
Pourtant, démontrer les dysfonctionnements de ces systèmes demeure compliqué, concède la journaliste. Notamment parce que ces éclairages reposent souvent sur des exemples spécifiques, de simples tests, des études limitées en ampleur, en profondeur et dans le temps… que les entreprises ont beau jeu de les rejeter comme n’étant pas représentatifs. L’accumulation de preuves de défaillances devrait néanmoins être plus que préoccupante.
Les informations sur le fonctionnement de ces systèmes sont rares, la plupart du temps elles ne nous parviennent que quand ces systèmes dysfonctionnent publiquement. En 2018, une enquête de Reuters avait montré que le système de recrutement d’Amazon était fortement biaisé au détriment des femmes : ses données d’entraînement (les CV des gens déjà recrutés par Amazon) comportaient trop peu de femmes et les écartait par défaut. Malgré les tentatives de l’équipe d’Amazon pour réparer le système d’embauche, l’équipe a fini par abandonner le projet, faute d’y parvenir. C’est dire que réparer les défaillances et les biais n’est pas si simple. Les problèmes de discriminations ne se sont pourtant pas arrêtés. La Commission pour l’égalité des chances en matière d’emploi (EEOC, l’agence fédérale américaine chargée de lutter contre la discrimination à l’emploi), poursuit chaque années de nombreuses entreprises qui ont des pratiques d’embauches discriminatoires massives et problématiques.
Pour John Jersin, longtemps vice-président de Linkedin, ces problèmes de discrimination invisibles, cachés dans d’autres pratiques ou au fin fond des mots, restent inaperçues des développeurs de systèmes, notamment parce que la réduction des biais évoque d’abord le risque qui affecte certaines catégories de population plutôt que d’autres. Le débiaisage invite à écarter des éléments visibles, comme le genre, les prénoms, les pronoms, les photos… mais n’insiste pas assez sur le fait que les biais peuvent être, par cascade, à plein d’autres endroits. Chez Linkedin, Jersin a construit une équipe d’ingénieurs en IA pour combattre les biais de l’IA. Pour réduire les biais de genre, la solution de Linkedin a été… de mettre encore plus d’IA en utilisant des coefficients de représentativité genrés selon les emplois pour corriger la visibilité des annonces (comme Meta envisage de le faire pour les annonces immobilières). L’exemple montre bien que pour corriger les biais, encore faut-il pouvoir les mesurer, et non seulement mesurer les biais de représentativité, mais également ceux de la diffusion des annonces. Sans compter que ces corrections qui visent à réduire les écarts de performance entre groupes démographiques risquent surtout de produire un “égalitarisme strict par défaut”, qu’une forme d’équité. Le débiaisage laisse ouvertes plusieurs questions : Quelles corrections appliquer ? Comment les rendre visibles ? Jusqu’où corriger ?
Sans compter qu’il faudrait pouvoir corriger toutes les autres formes de discrimination, liées à l’âge ou la couleur de peau… Ou encore des discriminations liées à l’origine géographique des candidats qui permet d’écarter très facilement des candidatures selon leur localisation. Et surtout de la plus prégnante d’entre elle : la discrimination de classe.
Pseudoscience automatisée
Les systèmes d’embauche automatisé reposent principalement sur l’analyse de mots et nous font croire que cette analyse permettrait de prédire la performance au travail, la personnalité des candidats ou l’adéquation entre une offre et un poste. Ces outils de sélection et d’évaluation sont partout promus comme s’ils fournissaient des informations stables, fiables, objectives et équitables, sans jamais se soucier de leur validité scientifique. Pourtant, les vendeurs de ces systèmes n’apportent jamais la moindre preuve de la validité scientifique de leurs solutions.
Pour les chercheurs Mona Sloane, Emanuel Moss et Rumman Chowdhury, ces systèmes reposent surtout sur des pratiques pseudoscientifiques qu’autre chose. Et bien souvent, les évaluations sont prises dans des chaînes de traitement qui impliquent plusieurs types d’outils et de techniques qui rendent leur audit difficile, notamment parce que certains résultats ont des conséquences sur d’autres mesures. Pour les chercheurs, il faudrait revenir aux « racines épistémologiques » des systèmes, c’est-à-dire aux prétentions à la connaissance qu’ils formulent, comme de prétendre que l’analyse des mots d’un CV puisse caractériser la performance au travail. La perspective de déployer des audits pour s’assurer de leur conformité qui ne se limiteraient qu’à des questions d’équité (de genre ou d’âge par exemple) ne peuvent pas corriger les problèmes que génèrent cette fausse prétention à la connaissance. Or, pour l’instant, sans même parler d’équité, les entreprises ne sont même pas obligées de révéler aux candidats les outils qu’elles mobilisent ni leurs effets. Nous ne connaissons ni la liste des systèmes mobilisés, ni leurs intentions, ni les données utilisées, ni celles utilisées pour la modélisation… L’opacité de l’emploi automatisé s’étend bien plus qu’il ne se résout.
Cambridge Analytica nous a permis de comprendre l’impact du profilage pseudo-psychologique. Dans le domaine du recrutement, on utilise depuis longtemps le profilage psychologique : la graphologie comme les tests psychologiques ont été inventés pour le travail, comme nous l’expliquait le psychologue Alexandre Saint-Jevin. Nombre d’outils tentent de prédire le profil psychologique des candidats, comme Humantic AI ou Crystal. IBM elle-même a longtemps promu une version dédiée de Watson… avant de l’arrêter. L’idée consiste le plus souvent à scanner le profil des candidats pour savoir qui ils sont vraiment, afin de prédire leurs comportements. Le secteur est en plein boom. Il représente quelque 2 milliards de dollars en 2023. Il n’est pourtant rien d’autre que de « l’astrologie de bureau »qui ne produit rien d’autre que de notre propre hallucination.
Pour compléter ces analyses pseudo-psychologiques, de nombreux outils comme Fama, Foley, Ferretly ou Intelligo … aspirent les contenus des médias sociaux (sans demander leur consentement aux candidats) et appliquent sur ces contenus des analyses émotionnelles souvent simplistes, consistant à caractériser positivement ou négativement les mots utilisés, les likes déposés… sans parvenir à distinguer le sarcasme ou l’ironie, comme l’a vécu une employée en recevant 300 pages d’analyse automatisé de son profil par Fama – une pratique qui, en France, rappelle un arrêt de la Cour de cassation, devrait être très encadrée, notamment parce que cette collecte d’informations tiers peut-être déloyale par rapport à l’objet de leur mise en ligne.
Dans ces profilages, les individus sont réduits à des schémas psychologiques simplistes, provenant de personnes qui ont passé ces tests de personnalités et dont les systèmes conservent les profils de réseaux sociaux associés, pour les comparer à ceux de nouveaux candidats dont on ne connaît pas les résultats aux tests de personnalités afin de les déduire par comparaison. Cela conduit bien souvent à produire des corrélations basiques : les fans de Battlestar Galactica sont introvertis, ceux de Lady Gaga extravertis ! Dans son livre, Schellmann teste Humantic sur son profil Twitter et Linked-in. Sur le premier, elle apparaît « autoritaire, énergique et impulsive ». Sur le second, elle est « analytique, prudente et réfléchie » ! Sur le second analysé par Crystal, elle est dite « franche, assurée et agressive » ! Elle fait passer le test à ses étudiants en data science. Ils téléchargent chacun un même CV qui produit des résultats différents ! Contactées suite à ces contradictions, les plateformes ont beau jeu de répondre que l’échantillon est trop faible pour être représentatif… À nouveau, le déni des résultats spécifiques sert toujours à masquer les défaillances systémiques.
Nombre de systèmes usent et abusent de tests psychologiques consistant à faire sens des mots d’un CV. Pourtant, la recherche dans le domaine a montré depuis longtemps que les tests de personnalités peinent à mesurer la performance au travail et que celle-ci a d’ailleurs peu à voir avec la personnalité.
A défaut de trouver des critères pertinents pour distinguer des candidats souvent assez proches les uns des autres, le recours à la pseudoscience permet d’imaginer des différences ou de recouvrir des discriminations bien réelles d’un vernis socio-culturel.
Schellmann a également testé des outils d’entretiens audio et vidéo comme Hirevue ou Retorio. Ce ne sont déjà plus des outils anodins. 60 des 100 plus grandes entreprises américaines utilisent Hirevue et quelque 50 000 candidats sont auditionnés chaque semaine par le système d’entretien automatisé développé par cette entreprise. Hirevue est peu disert sur le fonctionnement en boîte noire de son système. A ce qu’on en comprend, le système produit plusieurs scores qui tentent d’évaluer la capacité à négocier, à persuader… ou la stabilité émotionnelle. en tentant d’apprécier ce qui est dit et comment il est dit. Mais, comme toujours avec l’analyse émotionnelle, « les outils confondent la mesure avec son interprétation ». Ces outils innovants, démasqués par plusieurs enquêtes, ont pourtant peu à peu coupé certaines de leurs fonctionnalités. Retorio comme Hirevue n’utilisent plus la reconnaissance faciale ni l’analyse du ton de la voix pour analyser l’émotion des candidats, suite à des révélations sur leurs dysfonctionnements (un audit pour Hirevue et une enquête de journalistes allemands pour Retorio qui montrait que le score d’une même personne n’était pas le même selon la manière dont elle était habillée, si elle portait ou non des lunettes ou selon l’arrière-plan qu’elle utilisait). Cela n’empêche pas que leurs réponses, elles, soient scorées sur les mots utilisées selon leur « positivité » ou leur « négativité » (une analyse qui n’est pas sans poser problème non plus, puisque des termes très simples comme juif, féministe ou gay ne sont pas interprétés positivement par ces systèmes d’analyses de langue). Mais le problème n’est pas que là : la retranscription même des propos est parfois déficiente. S’amusant d’obtenir un bon score en anglais sur MyInterview, un système du même type, Schellmann se met alors à parler Allemand, sa langue natale… avant de recevoir un transcript généré automatiquement qui transforme son Allemand en pur globish sans grand sens… tout en lui attribuant un très bon score ! De quoi interroger profondément les promesses de tous ces outils qui masquent sous des calculs complexes leurs profondes béances méthodologiques et leurs incapacités à produire autre chose que des leurres. Le problème, c’est que ces leurres peuvent tromper les entreprises qui achètent très chères ces solutions… mais ils trompent d’abord et avant tout les candidats, qui eux, n’ont pas beaucoup de modalités de recours, face à des systèmes bien plus aberrants que fiables.
Les outils automatisés pour l’embauche ne réduisent pas les biais du recrutement. Au mieux, ils les invisibilisent, au pire, ils les amplifient. Derrière leur vernis d’objectivité, ces systèmes produisent surtout une subjectivité cachée, à l’image des innombrables techniques de classements des employés qui ont de plus en plus cours dans les entreprises et que dénonce la journaliste de Marianne, Violaine des Courières, dans son livre, Le management totalitaire (Albin Michel, 2023). Pour assurer une compétition de plus en plus vive, explique-t-elle, on psychiatrise le monde du travail avec du profilage comportemental ou psychique. C’est un peu comme si la course au mérite n’était jamais totalement aboutie, qu’il fallait toujours l’améliorer jusqu’à parvenir à des critères qui ne regardent plus vraiment les compétences mais reposent sur des mesures de plus en plus absconses pour permettre de distinguer des candidats souvent très semblables.
Alors, comment améliorer les choses ?
Selon le chercheur Arvind Narayanan, l’embauche est l’un des pires secteurs pour utiliser l’IA, car ce que ces systèmes doivent prédire n’est pas clair. La productivité, la performance ou la qualité d’un employé ne sont pas des critères faciles à catégoriser. Apporter la preuve que leurs systèmes fonctionnent devrait être la première responsabilité des vendeurs de solutions, en publiant les études scientifiques indépendantes nécessaires, en laissant les entreprises les tester, et en permettant à ceux qui sont calculés d’obtenir des résultats et des explications sur la manière dont ils ont été calculés. Dans le domaine médical, les laboratoires doivent prouver que leurs médicaments fonctionnent avant de pouvoir être mis sur le marché, rappelle-t-il. Ce n’est pas le cas de ces systèmes d’évaluation des candidatures comme de bien des systèmes automatisés utilisés dans le domaine du travail. « Les essais contrôlés randomisés devraient être un standard dans tous les domaines de la prise de décision automatisée », plaide-t-il. Rappelant également la nécessité d’exiger la transparence des données d’entraînement des systèmes. Pas sûr cependant qu’inviter les acteurs du recrutement à inspecter, réformer et transformer leurs pratiques et leurs outils suffise, sans qu’une régulation et une responsabilité plus forte ne s’impose à eux. Sans sanction ni contrôle, les outils du recrutement automatisés ne se réformeront pas d’eux-mêmes.
Mais encore faut-il pouvoir mieux mesurer et mettre en visibilité leurs défaillances. Pour cela, une autre piste consiste à ce que les recruteurs soient plus transparents sur leurs recrutements et leurs effets : qu’ils produisent des données sur les candidatures et les sélections auxquels ils procèdent, que ce soit sur le genre, l’âge, l’origine ethnique, géographique ou le niveau social. Pour faire reculer les discriminations invisibilisées et amplifiées, il faut que les entreprises soient contraintes à documenter les résultats de leurs sélections comparativement aux candidatures reçues et soient contraintes de documenter le niveau d’exposition et de publicisation de leurs annonces. C’est en ce sens qu’il faut lire les premiers efforts appelant à documenter l’égalité professionnelle… En France, l’index de l’égalité professionnelle n’observe que l’écart de rémunération des hommes et des femmes dans les entreprises de plus de 50 employés (mais sera suivi de la transparence des rémunérations et des salaires d’embauches qui doivent être intégrés par les entreprises d’ici juin 2026). Prolonger cet effort de transparence jusqu’aux systèmes de recrutement en demandant aux entreprises de produire des métriques sur leurs sélections à l’embauche et en automatisant les malus pour les entreprises dont les recrutements sont les plus discriminants par rapport au niveau de candidature reçu, pourrait être un puissant levier pour produire une transparence là où il n’y en a pas. Reste, comme le soulignait la CGT vis-à-vis d’un récent projet de loi contre la discrimination à l’embauche, la simple exposition des entreprises qui ont des pratiques discriminantes et les amendes ne suffiront pas à régler le problème des discriminations systématiques à l’embauche.
Reste que pour en prendre le chemin, il faudrait pourtant inverser la logique à l’œuvre aujourd’hui, où le contrôle s’exerce bien plus sur les candidats à l’emploi, notamment les chômeurs, que sur les pratiques des recruteurs. Celles-ci ne sont pourtant pas sans critiques, comme le soulignait une étude sur les offres d’emploi non pourvues menée par le Comité national CGT des travailleurs privés d’emploi et précaires, dénonçant la désorganisation des offres d’emploi, leur redondance voire le fait que nombres d’entre elles sont légalement problématiques.
Imposer la transparence et auditer les systèmes de recrutement, c’est la politique qu’a tenté d’initier la ville de New York l’année dernière… sans succès. Un article de recherche signé Lara Groves, Jacob Metcalf, Alayna Kennedy, Briana Vecchione et Andrew Strait explique justement pourquoi cette tentative de régulation n’a pas marché ! En juillet 2023, la ville de New York a mis en œuvre un règlement local imposant aux employeurs new-yorkais qui utilisent des outils de recrutement automatisés de les soumettre à des audits indépendants. Cet audit consiste en un audit de biais sur les discriminations raciales et de genres (mais pas sur l’âge ou le handicap) qui doit être publié sur le site web de l’employeur sous forme de ratio d’impact. Le ratio d’impact consiste à mesurer le taux de sélection des candidats selon les différents groupes démographiques, de genre et racial. L’idée est de mesurer la différence entre le niveau de sélection d’un groupe vis-à-vis de celui du groupe le plus sélectionné. Un ratio d’impact de 1,0 signifie que le taux de sélection est parfaitement égal entre les groupes, un ratio d’impact inférieur indique un résultat discriminatoire à l’encontre du groupe le moins sélectionné : plus le résultat est faible et plus il est discriminatoire, donc. Si le taux est inférieur à 0,8 selon les conventions juridiques américaines anti-discrimination, on estime qu’il y a une discrimination de fait (mais cette estimation tient plus d’un compromis arbitraire car cette limite n’a jamais été concrètement questionnée ou évaluée). Enfin, même si elle prévoit des sanctions, la loi n’impose aucune obligation à un employeur qui découvrirait un impact discriminatoire, celui-ci devant uniquement publier un audit annuel de ses recrutements et de leurs effets.
Les chercheurs ont constaté que très peu d’audits ont été rendus publics et aucun référentiel central n’a été créé par le Département de la protection des consommateurs et des travailleurs de la ville de New-York. Les chercheurs ont réussi à collecter seulement 19 audits, ce qui semble bien peu vu le nombre d’entreprises new-yorkaises. L’interview des cabinets chargés d’auditer les systèmes pointe que la loi proposée comportait trop d’imprécisions et laissait trop de marges de manoeuvre aux employeurs (ceux-ci pouvant ne pas publier de rapport s’ils évaluaient que les systèmes automatisés n’aidaient pas « substantiellement » leur entreprise à embaucher). Pire, cette transparence ne permet pas vraiment aux candidats non recrutés et potentiellement discriminés d’agir à l’encontre des discriminations qu’ils auraient pu subir. Les chercheurs soulignent également la grande difficulté des auditeurs, à accéder aux données des services qu’utilisent les entreprises, pouvant rendre les audits peu fiables, voire tronqués. Les chercheurs en tirent quelques recommandations. La transparence (bien relative puisqu’elle se limitait ici à des tableaux de chiffres !) sur les discrimination à l’embauche ne suffit pas à produire du changement. Aucun candidat à l’embauche n’a semble-t-il tiré bénéfice de ces informations, et rien n’obligeait les entreprises prises en défaut à prendre des mesures correctives. Les chercheurs recommandent d’élargir le principe aux plateformes et fournisseurs d’outils de recrutement, que les documents de transparence soient collectés centralement et mieux accessibles aux candidats à l’emploi. Pour les chercheurs, les lois sur l’audit doivent également proposer des mesures et des définitions claires et précises. La loi doit également éclaircir les normes qui s’appliquent aux auditeurs plutôt que de leur laisser définir les bonnes pratiques. Enfin, la collecte de données doit être rendue plus fluide d’autant que l’enquête va un peu à l’encontre des principes de confidentialité. Elle doit permettre aux auditeurs de pouvoir mener des évaluations indépendantes, approfondies et significatives.
L’échec de la politique new-yorkaise montre en tout cas que la perspective d’un index de la discrimination automatisée à l’embauche doit être un peu plus organisé qu’il n’a été pour être rendu fonctionnel.
Passer des logiciels de recrutement… aux logiciels de candidature !
Quand on s’intéresse aux défaillances spécifiques et systémiques des outils de recrutement automatisé, le plus étonnant finalement, c’est de constater qu’en tant que société, nous soyons capables d’adopter des outils qui ne fonctionnent pas, des outils foncièrement contraire à l’éthique, profondément discriminants… sans provoquer de réaction de rejet forte du corps social. Cela est certainement lié au fait que les plus discriminés sont habitués à l’être. Ce n’est pas une raison pour s’y résigner ! La zone du recrutement reste un espace sans beaucoup de pouvoir pour les candidats. A ce jour, ils n’ont ni le droit de recevoir des explications ni celui de contester les décisions.
L’AI Act européen promet pourtant d’améliorer le niveau de responsabilité des systèmes de recrutement automatisés, puisque nombre d’entre eux devraient faire partie des systèmes à risque élevé. On verra à l’usage s’il fait progresser la transparence des systèmes, mais, sans règles plus claires, il est probable que les choses évoluent peu, autrement que sous les coups de scandales publics de dysfonctionnements visibles, comme cela a été le cas jusqu’à présent.
Peut-être que la solution pour contrer les défaillances fonctionnelles du recrutement consisterait plutôt à en inverser radicalement la logique à l’œuvre. Et c’est peut-être là que nous pourrions trouver les meilleures perspectives d’évolution.
Jusqu’à présent le monde du recrutement est façonné par une logique qui bénéficie totalement aux recruteurs. Ce n’est pas pour rien qu’on parle d’ailleurs de logiciels de recrutements. Alors peut-être que la solution consiste à passer aux logiciels de candidatures ! Et cette perspective, avec l’arrivée de l’IA générative et des agents intelligents est peut-être plus proche de se réaliser que jamais. Alors que les recruteurs disposent de tout pouvoir, il est possible que les candidats puissent en reconquérir. Comment ?
C’est la piste qu’explore le développeur Hussein Jundi sur Towards Data Science, en imaginant un robot logiciel capable de chercher des postes à sa place – ce qui ne serait déjà pas une mauvaise option tant la recherche sur les sites d’emploi est restée fruste et défaillante (oui, vous aussi, vous recevez des propositions de stages à Paris alors que vous avez une alerte pour des CDI à Nantes !). Mais on pourrait aller plus loin et imaginer un robot capable de candidater à notre place, d’adapter les termes de son CV aux mots clefs des annonces, de démultiplier de façon autonome ses candidatures en produisant des micro-variations sur les termes des compétences recherchées… Hussein Jundi nous suggère finalement une piste très stimulante pour finir de casser un recrutement déficient : doter les utilisateurs de robots capables d’adapter leurs candidatures aux systèmes de tris automatisés que les entreprises utilisent. Il ne propose rien d’autre que d’exploiter et d’amplifier les faiblesses du recrutement automatisé… pour le faire imploser.
Ce que dessine cette perspective, c’est que dans cette course sans fin à l’automatisation, il n’est pas sûr que les entreprises profitent de leurs avantages encore longtemps. A force de ne pas vouloir inspecter et réguler leurs pratiques, il est possible qu’à terme, les utilisateurs les subvertissent. Des logiciels capables de modifier votre profil Linked-in selon l’origine de celui qui le regarde. Des logiciels capables d’adapter vos CV aux annonces, de multiplier les candidatures à un même poste avec des variations de termes de son CV, des logiciels capables d’aller puiser dans les API des systèmes de recrutements pour informer des critères retenus… afin d’améliorer le matching. On pourrait même imaginer des systèmes capables d’inonder de candidatures les systèmes de recrutement pareils à des attaques de déni de services.
Incapable de réformer ses pratiques, le recrutement se moque des candidats. Il est temps que les candidats prennent les recruteurs à leur propre jeu et qu’ils retrouvent du pouvoir d’agir ! Chiche ? On lance une startup ! 😊