« Les dégâts qu’un responsable du recrutement humain partial peut causer sont réels, mais limités. Un algorithme utilisé pour évaluer des centaines de milliers de travailleurs pour une promotion ou de candidats à l’emploi, s’il est défectueux, peut nuire à bien plus de personnes que n’importe quel être humain », affirmait dans Wired la journaliste américaine Hilke Schellmann. Après avoir publié depuis plusieurs années de nombreuses enquêtes sur les défaillances des systèmes automatisés appliqués à l’emploi, elle vient de faire paraître un livre permettant de faire le point sur leurs limites : The Algorithm : How AI decides who gets hired, monitored, promoted, and fired and why we need to fight back now (L’algorithme : comment l’IA décide de qui sera embauché, surveillé, promu et viré et pourquoi nous devons riposter, Hachette, 2024, non traduit). Son constat est sans appel : dans l’industrie technologique des ressources humaines (la « HRTech » comme on l’appelle), rien ne marche ! Pour elle, l’IA risque bien plus de vous empêcher d’être embauché que de vous piquer votre job !
Dans le domaine des ressources humaines, beaucoup trop de décisions sont basées sur de la « mauvaise camelote algorithmique », explique-t-elle. Des systèmes d’évaluation qui produisent déjà des préjudices bien réels pour nombre d’employés comme pour nombre de candidats à l’emploi. Dans son livre, la journaliste passe en revue les innombrables systèmes que les entreprises utilisent pour sélectionner des candidats et évaluer leurs employés… que ce soit les entretiens automatisés, les évaluations basées sur les jeux, les outils qui parcourent les publications sur les réseaux sociaux et surtout ceux qui examinent les CV en ligne… Tous cherchent à produire des correspondances entre les compétences des candidats et ceux des employés et à prédire les personnalités… sans grand succès.
Ce qu’elle montre avant tout, c’est que les entreprises qui ont recours à ces solutions ne sont pas suffisamment critiques envers leurs défaillances massives. En guise de calculs, ces systèmes produisent surtout des approximations généralisées. Sous l’apparence de scientificité des scores et des chiffres qu’ils déterminent se cache en fait beaucoup de pseudo-science, de comparaisons mots à mots peu efficaces. Quand on s’intéresse au fonctionnement concret de ces outils, on constate surtout que leur caractéristique principale, ce n’est pas tant qu’ils hallucinent, mais de nous faire halluciner, c’est-à-dire de nous faire croire en leurs effets.
Les algorithmes et l’intelligence artificielle que ces systèmes mobilisent de plus en plus promettent de rendre le travail des ressources humaines plus simple. En l’absence de régulation forte, souligne la journaliste, ni les vendeurs de solutions ni leurs acheteurs n’ont d’obligation à se conformer au moindre standard. Or, poser des questions sur le fonctionnement de ces outils, les valider, demande beaucoup de travail. Un travail que les départements RH ne savent et ne peuvent pas faire. Nous aurions besoin d’un index pour mesurer la qualité des outils proposés, propose la journaliste… tout en constatant que nous n’en prenons pas le chemin. L’industrie RH se contente parfaitement de la situation, souligne-t-elle. Les avocats américains recommandent d’ailleurs aux services RH des entreprises de ne pas enquêter sur les outils qu’ils utilisent pour ne pas être tenu responsables de leurs dysfonctionnements ! A croire que la responsabilité sociale fonctionne mieux avec des œillères !
De l’automatisation des recrutements : tous scorés !
L’automatisation s’est imposée pour répondre aux innombrables demandes que recevaient les plus grandes entreprises et notamment les grandes multinationales de la Tech. Comment traiter les millions de CV que reçoivent IBM ou Google chaque année ? Qu’ils soient déposés sur les grands portails de candidatures et d’offres d’emplois que sont Indeed, Monster, Linkedin ou ZipRecruiter comme sur les sites d’entreprises, l’essentiel des CV sont désormais lus par des logiciels plutôt que par des humains. Les plateformes développées d’abord pour l’intérim puis pour les employés de la logistique, de la restauration rapide et du commerce de détail sont désormais massivement utilisées pour recruter dans tous les secteurs et pour tous types de profils. Mais elles se sont particulièrement développées pour recruter les cols blancs, notamment en entrée de tous les grands secteurs professionnels, comme l’informatique ou la finance. Si ces plateformes ont permis aux candidats de démultiplier facilement leurs candidatures, c’est au détriment de leur compréhension à savoir comment celles-ci seront prises en compte. Les fonctionnalités de tri massifs et automatisés restent encore l’apanage des grandes entreprises, notamment parce qu’elles nécessitent souvent d’accéder à des logiciels dédiés, comme les « systèmes de suivis de candidatures » (ATS, Applicant Tracking Systems) qui permettent de trier et gérer les candidats. Une grande majorité des employeurs y ont recours. Ces logiciels sont moins connus que les grandes plateformes de candidatures avec lesquelles ils s’interfacent. Ils s’appellent Workday, Taleo, Greenhouse, Lever, Phenom, Pintpoint, Recruitee, Jobvite… Sans compter les plus innovants parmi ces interfaces du recrutement, comme Sapia ou Hirevue, qui proposent d’automatiser jusqu’à l’entretien lui-même en mobilisant reconnaissance faciale, transcription des propos et analyse émotionnelle.
Tous ces systèmes font la même promesse aux entreprises qui les utilisent : minimiser et optimiser le nombre de candidats à un poste et réduire le temps de sélection des candidats. Pour se faire, ces systèmes lisent les mots des CV selon les paramètres qu’en précisent les entreprises et que rendent disponibles les plateformes. Ils cherchent dans les CV les occurrences des termes qui décrivent le poste depuis l’annonce ou comparent les termes des CV candidats à ceux de personnes déjà en poste. La plupart utilisent des attributs par procuration pour détecter des compétences, comme le fait d’avoir un diplôme du supérieur ou le fait d’avoir des compétences précises formalisées par des mots-clefs littéraux.
Face à l’afflux des candidatures – en 2015, Glassdoor estimait qu’il y avait en moyenne 250 réponses par offre d’emploi pour 4 à 6 sélectionnés pour un entretien ; Jobvite, lui estime que le nombre moyen de candidats par offre tournerait plutôt autour de 29 en 2018, alors qu’il était de 52 en 2016, une baisse qui résulterait d’une meilleure optimisation des offres quand on pourrait questionner plutôt le recul de leur diffusion –, le recrutement automatisé s’est généralisé et ce dans une grande opacité au détriment des candidatures les plus précaires. Car dans ces outils, pour accélérer le tri, il est facile de ne retenir par exemple que ceux qui ont un diplôme du supérieur pour un poste qui n’en nécessite pas nécessairement. Les capacités de réglages sont bien plus conçues pour exclure et rejeter les candidatures que pour intégrer les candidats. Par exemple, comme souvent en informatique, si l’une des compétences exigée n’est pas présente, quelque soit les qualifications et les qualités des autres compétences évaluées, le candidat va bien souvent être rejeté ou sa note globale dégradée, selon une moyennisation qui lisse les écarts plutôt que de capitaliser sur les forces et faiblesses des candidats. Dans leur livre, The Ordinal Society, les sociologues Marion Fourcade et Kieran Healy, parlent très justement du « lumpenscoretariat » pour qualifier le prolétariat du score dans le capitalisme numérique, pour parler de ceux qui sont toujours mal classés par les systèmes parce que les standards de ceux-ci s’adaptent extrêmement mal à tous les publics.
Ces logiciels de recrutement examinent, évaluent et classent les candidatures en leur attribuant des scores sur un certain nombre de critères définis par les possibilités du système et par l’entreprise qui recrute. Plusieurs scores sur plusieurs attributs sont produits (par exemple un score sur l’expérience requise, un score sur les compétences exigées, etc.) et forment un score unique qui permet de classer les candidatures les unes par rapport aux autres. Un très fort pourcentage de candidatures sont rejetées parce qu’elles ne remplissent pas les critères demandés. Et ce, alors que les employeurs ont tendance à démultiplier les critères pour réduire le nombre de candidats à examiner. Pour un simple emploi de vendeur, le nombre de compétences requises dans les offres d’embauche en ligne est en moyenne de 31 compétences différentes ! De plus en plus d’offres d’emploi demandent d’ailleurs des compétences qui étaient associées à d’autres professions : un vendeur doit savoir vendre, mais doit également désormais savoir utiliser tel ou tel logiciel par exemple ou disposer de compétences transverses, les fameux « soft skills », des aptitudes interpersonnelles qui n’ont pas toujours de liens avec les compétences techniques (qui elles relèvent par exemple de la maîtrise d’une langue étrangère ou de techniques de ventes spécifiques), que ce soient « l’autonomie », la « capacité à négocier » ou la « flexibilité », autant de « talents » dont l’appréciation est bien souvent difficile et subjective et que les calculs promettent de résoudre par des scores dont la formule est suffisamment complexe pour que nul ne regarde leurs défauts.
Bien souvent, les entreprises qui embauchent sont les premières responsables du sur-filtrage qu’elles utilisent. Mais surtout, à force de démultiplier les critères, elles ne parviennent pas à ouvrir leurs canaux de recrutement, comme s’en émouvait le rapport Fuller, Hidden Workers (2021). Joseph Fuller, le chercheur de la business school d’Harvard, montrait que nombre de candidats qualifiés n’étaient pas considérés par ces systèmes de tri automatisés. Nombre de systèmes de recrutement rejettent des candidats qui font de très bons scores sur nombre de critères, mais échouent totalement sur un seul d’entre eux, au profit de candidats qui peuvent être très moyens sur tous les critères. Ainsi, dans la moitié des outils d’analyse automatisés testés par son équipe, avoir un trou de 6 mois dans sa carrière conduit à une exclusion automatique, quelle que soit la raison de ce passage à vide (congé natalité, maladie…) et ce même si la candidature est par ailleurs très bien notée. Cet exemple montre que la qualification n’est pas le seul critère pris en compte. Ces systèmes font d’abord ce pour quoi ils sont programmés : minimiser le temps et le coût passé à recruter ! Pour Hilke Schellmann, ces exemples démontrent que les responsables RH devraient enquêter sur les outils qu’ils utilisent et comprendre les critères de sélection qu’ils mettent en œuvre. Les processus d’embauches automatisés se concentrent bien plus sur la détection de références que sur les capacités des candidats. L’automatisation du recrutement conduit à configurer les systèmes de manière inflexible afin d’en minimiser le nombre. Or, pour Fuller, ces outils devraient surtout permettre d’élargir le recrutement que de le resserrer, ils devraient permettre de s’intéresser aux expériences plus qu’aux compétences, explique-t-il en montrant que nombre de personnes compétentes ne sont pas recrutées parce que leur expérience peut-être sur des compétences similaires, mais dans un autre métier. Les descriptions de postes se complexifient, écartant certains postulants, et notamment les femmes qui ont tendance à postuler que si elles sont convaincues qu’elles satisfont à l’essentiel des exigences d’un poste.
Les responsables RH comme les recruteurs savent pertinemment que leurs outils ne sont pas toujours pertinents : 88% d’entre eux reconnaissent que ces outils excluent du processus d’embauche des candidats hautement qualifiés ou tout à fait qualifiés ! Leur efficacité elle-même est limitée, puisque 50% des employés embauchés ne sont plus en poste 18 mois après leur arrivée. Au final, comme leurs outils, les responsables RH ont souvent bien plus confiance dans les diplômes, la réputation des écoles que dans l’expérience. Les filtres des systèmes fonctionnent comme des proxys : avoir été embauché dans un rôle similaire à celui de l’annonce dans les derniers mois est souvent plus important que de trouver des personnes qui ont des expériences multiples qui devraient leur permettre de s’épanouir dans le poste. La recherche de l’adéquation empêche bien souvent de chercher l’adaptation. Le recrutement, dans sa logique, cherche à minimiser son coût plutôt que de maximiser le capital humain. Et ces systèmes qui visent d’abord à matcher avec des exigences strictes, peinent à favoriser la diversité plutôt que la similarité, les manières dont les gens ont progressé plutôt que les statuts qu’ils ont acquis.
Discriminations invisibles
Hilke Schellmann n’est pas la seule à s’inquiéter du fonctionnement des systèmes de recrutement. La professeure de droit américaine, Ifeoma Ajunwa, qui a publié l’année dernière The Quantified Worker (Le travailleur quantifié, Cambridge University Press, 2023 non traduit), explique elle aussi que les systèmes d’embauche automatisés réduisent tous les candidats à des scores. Dans ces scores, les pratiques discriminatoires, liées à l’âge, au sexe, à la couleur de peau, au handicap, au niveau social… sont invisibilisées. Or, ces systèmes se déploient sans contrôle, sans régulation, sans audit, sans label de qualité, sans informations aux candidats… Dans une tribune pour Wired, elle demandait à la Fédération du commerce qui régule ces questions aux Etats-Unis de faire son job : c’est-à-dire contrôler et sanctionner les pires pratiques !
Les systèmes servent à répliquer, amplifier et obfusquer les discriminations à grande échelle, estime la juriste. Dans l’histoire du développement des plateformes d’embauches depuis les années 1990, qu’elle dresse avec Daniel Greene, la principale raison de leur développement repose sur la promesse de réduire les biais de décisions en utilisant des processus techniques « neutres ». C’est pourtant bien à l’inverse qu’on a assisté : les décisions algorithmiques sont devenues le véhicule d’amplification des biais ! Mais, pour la juriste, la question des biais de ces systèmes est bien plus un problème légal que technique. Le problème, c’est que les biais des systèmes sont démultipliés à un niveau sans précédent. « La recherche d’un meilleur fonctionnement technique nous empêche trop souvent de regarder les limites légales de ces systèmes », explique Ajunwa. Trop de données sont des proxies pour contourner les interdictions légales à la discrimination inscrite dans la loi. Les discriminations de race, de genre, sociales… sont déguisées derrière une « nébuleuse adéquation culturelle » des candidats aux offres. Plus que les compétences ou l’expérience, les recruteurs et leurs machines sont à la recherche d’un « matching socio-culturel » qui masque ses motivations discriminatoires d’un couvert de neutralité, qui occulte combien nos stéréotypes acquis influencent en profondeur nos décisions, comme le fait de préférer certaines écoles à d’autres dans les recrutements, ou le fait que les systèmes de recrutements favorisent certains termes sur d’autres. Les exemples de biais de ce type sont nombreux et se démultiplient quand tous les termes d’un CV peuvent devenir prédictifs. C’est ainsi que parfois des prénoms, des formations ou des hobbies ont pu devenir des paramètres clefs de ces systèmes. Les systèmes d’analyse des CV fonctionnent bien trop sur des mots- clefs qui prennent alors des valeurs qui dépassent leur portée. L’avocat spécialiste des questions de travail Ken Willner a ainsi montré que des termes comme « Afric » ou « Latin », qu’ils soient associés à un travail où à un hobby (comme le fait de pratiquer la danse Afro par exemple) pouvaient dégrader le score d’un CV juste parce que la présence du terme renvoie à des publics afro-américains. Sur les douzaines de systèmes d’embauche que l’avocat a examinés, il a trouvé des variables problématiques dans plus d’un quart ! Pour Willner, les entreprises qui développent ces outils ne font même pas le travail liminaire de contrôle et de non prise en compte de termes potentiellement discriminatoires. Willner en a trouvé bien d’autres, comme la pratique du baseball et du softball, le second surtout joué par des femmes, dont l’occurrence pouvait être prise en compte pour dégrader le score des secondes.
L’autoritarisme de plateforme pour obscurcir les discriminations
Les systèmes d’embauche automatisés permettent d’abord d’obscurcir les discriminations. Par exemple, celles liées à l’âge, alors que la loi les interdit. Plusieurs études ont montré que la discrimination liée à l’âge est exacerbée par l’automatisation. Un audit de la banque of America a montré que les gens de plus de 40 ans avaient un taux de rappel suite à une candidature 30% moins élevée que les plus jeunes pour des emplois de base et que ce taux s’effondrait plus encore pour les femmes de plus de 40 ans. Le problème, estime Ifeoma Ajunwa c’est que ces discriminations liées à l’âge sont facilitées sur les plateformes, comme l’avait souligné une enquête de CNBC.
Reste, souligne la juriste, que les disparités de traitements sont difficiles à prouver, d’abord et avant tout parce que les plateformes d’emploi ne sont contraintes à aucune transparence statistique sur ce qu’elles font. Une étude a même montré que pour quelques 600 plaintes pour discrimination raciale à l’emploi aux Etats-Unis, la majorité des jugements rendu peinent à reconnaître la discrimination à l’oeuvre. Ajunwa parle « d’autoritarisme de plateforme » pour évoquer les contradictions entre les politiques des plateformes et les législations. Cet autoritarisme masque la relation qu’elles entretiennent avec les candidats comme intermédiaires qui bénéficie bien plus aux employeurs et aux plateformes qu’aux utilisateurs. Pas étonnant dès lors que le public soit très critique à l’égard des plateformes d’embauche, comme le montrait un sondage du Pew sur la très vive défiance du grand public à l’encontre de l’embauche automatisée (avec un autre biais récurrent, qui est de croire que le système a plus de conséquences négatives globalement que pour soi personnellement).
Plus que de résoudre les dérives du recrutement, son automatisation a surtout généré un empilement de problèmes, que toute la chaîne de la HR tech tente de mettre sous le tapis, plutôt que de l’affronter. Il n’est pas sûr que ce soit une position longtemps tenable…
(à suivre)