HyperAIHyperAI

Command Palette

Search for a command to run...

HackerRank open-source : l'IA manque de fiabilité pour les CV

Un outil de tri automatique de candidatures, développé en open source par HackerRank, suscite récemment un regain d'attention sur les plateformes professionnelles et les communautés techniques. Malgré son accessibilité, des tests approfondis révèlent une instabilité critique dans la notation des curriculum vitae, soulevant de sérieuses interrogations sur sa fiabilité dans un contexte de recrutement industriel. Le système fonctionne en extrayant le texte du CV, en interrogeant plusieurs fois un modèle de langage pour structurer les informations, en consultant les dépôts GitHub du candidat et en soumettant l'ensemble à l'IA pour attribution d'une note sur cent points, auxquels s'ajoutent vingt points bonus. Le modèle par défaut, gemma3:4b, est configuré avec une température de 0,1, un paramètre censé favoriser la reproductibilité. Néanmoins, une série de cent exécutions sur un même CV produit des scores fluctuant entre soixante-six et quatre-vingt-dix-neuf. Pour une entreprise fixant son seuil d'éligibilité à quatre-vingt-cinq, le candidat serait éliminé aléatoirement dans soixante-cinq pour cent des cas. L'analyse détaillée par critère met en lumière des dysfonctionnements distincts. La section compétences techniques affiche une stabilité remarquable, car elle repose sur un simple croisement de mots-clés, une tâche que l'intelligence artificielle excelle à exécuter. En revanche, l'évaluation des projets personnels présente des variations considérables. Le modèle peine à juger de manière reproductible des critères subjectifs comme la complexité architecturale ou la pertinence opérationnelle, même avec un paramètre de température proche de zéro. Cette non-déterminisme n'est pas un bug isolable, mais une limite structurelle des architectures actuelles. La section expérience professionnelle, quant à elle, est d'une rigueur constante mais totalement inopérante. Le candidat obtient systématiquement la note maximale, qu'il s'agisse d'un stagiaire diplômé récent ou d'un ingénieur principal disposant de dix années d'expertise. Le prompt de notation se résume à deux lignes sans grille d'évaluation ni exemples ancrés, empêchant toute différenciation réelle entre les profils. Ces résultats illustrent que si les grands modèles de langage sont excellents pour l'extraction de données factuelles, ils échouent face à l'évaluation nuancée du parcours professionnel. De surcroît, le barème attribue soixante-cinq pour cent du score total aux projets open source et aux réalisations techniques, pénalisant lourdement les développeurs dont le travail impactant n'est pas publié publiquement. Cette pondération fausse la sélection en sous-évaluant des compétences métier souvent moins visibles numériquement. Pour les équipes techniques et les services des ressources humaines, ces limites appellent à une vigilance accrue. Un algorithme de criblage incapable de différencier objectivement les candidatures ne filtre pas la qualité, il introduit un biais aléatoire. Avant d'intégrer de tels outils dans un processus de recrutement, une validation rigoureuse et une compréhension de leurs défauts inhérents restent indispensables pour éviter de rejeter des profils compétents sur la base de la variabilité statistique plutôt que du mérite.

Liens associés