HyperAI

Depuis 2024, l’équipe d’optimisation des performances d’Anthropic soumet les candidats à un test à domicile afin d’évaluer leurs compétences techniques. Mais avec l’amélioration constante des outils d’écriture de code assistés par l’intelligence artificielle, ce test a dû être régulièrement repensé pour éviter que les candidats ne remplacent leurs réponses par celles générées par Claude. Tristan Hume, responsable de l’équipe, a raconté dans un billet de blog publié mercredi l’évolution de ce défi. « Chaque nouvelle version de Claude a obligé à restructurer entièrement le test », écrit-il. « Avec le même délai, Claude Opus 4 a surpassé la majorité des candidats humains. Cela permettait encore de distinguer les meilleurs, mais ensuite, Claude Opus 4.5 a égalé même les performances les plus fortes. » Les candidats sont autorisés à utiliser des outils d’IA pendant le test, ce qui crée un problème sérieux d’évaluation. Si les humains ne peuvent plus surpasser les modèles, le test ne mesure plus la qualité des candidats, mais uniquement la puissance des outils d’IA qu’ils utilisent. « Dans les contraintes du test à domicile, nous n’avions plus aucun moyen de distinguer les réponses des meilleurs candidats de celles de notre modèle le plus performant », explique Hume. Ce phénomène, déjà préoccupant dans les établissements scolaires et universitaires, prend une tournure ironique dans les laboratoires d’IA eux-mêmes. Pourtant, Anthropic est particulièrement bien placé pour relever ce défi. Hume a finalement conçu un nouveau test dont la nature même rend difficile l’exploitation par les outils d’IA actuels. Contrairement aux versions précédentes centrées sur l’optimisation de performances matérielles, ce nouvel exercice est suffisamment original pour piéger les modèles actuels. Dans un geste ouvert, Hume a publié l’énoncé initial du test pour inviter les lecteurs à proposer des solutions encore meilleures. « Si vous parvenez à battre Opus 4.5 », écrit-il, « nous aimerions beaucoup entendre parler de vous. » Correction : Une version antérieure de cet article indiquait à tort que l’utilisation d’IA était interdite lors du test à domicile. En réalité, l’usage d’outils d’IA est expressément autorisé. TechCrunch s’excuse pour cette erreur.

Liens associés

Liens associés

Liens associés

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Command Palette

Anthropic réinvente son test d'embauche face à l’ascension de Claude

Liens associés

Command Palette

Anthropic réinvente son test d'embauche face à l’ascension de Claude

Liens associés

Command Palette

Anthropic réinvente son test d'embauche face à l’ascension de Claude

Liens associés

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.