HyperAIHyperAI

Command Palette

Search for a command to run...

Claude 4.5 bat tous les humains sur un test d’ingénierie ultra-difficile d’Anthropic

Anthropic a mis au point un test technique à domicile de deux heures pour ses ingénieurs. Selon la société, son nouveau modèle d’intelligence artificielle, Claude Opus 4.5, a surpassé tous les candidats humains ayant passé cet examen. Dans un billet publié lundi, Anthropic affirme que ce modèle, présenté comme le plus avancé à ce jour, a obtenu des résultats supérieurs à ceux de tous les candidats humains sur un test particulièrement difficile, utilisé pour évaluer les compétences techniques et la capacité à juger sous pression temporelle. Le test, qui dure deux heures, vise à mesurer non seulement la maîtrise technique, mais aussi la qualité du raisonnement et la prise de décision dans des conditions réalistes. Bien que ce type d’évaluation ne reflète pas l’ensemble des compétences nécessaires à un bon ingénieur, le fait qu’un modèle d’IA batte tous les candidats humains soulève des questions importantes sur l’avenir de la profession d’ingénieur logiciel. Anthropic précise que les résultats ont été obtenus en faisant plusieurs essais pour chaque problème et en sélectionnant la meilleure réponse proposée par le modèle. Cependant, peu d’informations publiques sont disponibles sur la nature exacte du test. Une revue publiée en 2024 sur Glassdoor indique qu’il comporte quatre niveaux et demande aux candidats de concevoir un système spécifique et d’y ajouter des fonctionnalités. Il reste toutefois incertain si le test utilisé pour évaluer Claude Opus 4.5 était identique. La société n’a pas fourni davantage de détails dans son billet ni répondu aux demandes de commentaire. Cette nouvelle version de Claude arrive seulement trois mois après la sortie de la précédente. Outre ses performances en programmation, le modèle bénéficie également de progrès dans la génération de documents professionnels, notamment des feuilles de calcul Excel et des présentations PowerPoint. Ce lancement renforce encore la position d’Anthropic en tête du marché de l’IA dédiée au développement logiciel. Même Meta, rivale dans la course aux IA, utilise Claude pour alimenter son assistant interne de développement, Devmate. Les méthodes de formation du modèle restent confidentielles. Eric Simons, PDG de Stackblitz, propriétaire de Bolt.new, avait auparavant affirmé que les modèles d’Anthropic étaient probablement capables d’écrire, de déployer et de tester du code eux-mêmes, avant une validation humaine ou automatisée. Dianne Penn, responsable produit, recherche et innovations chez Anthropic, a confirmé que cette description était « globalement exacte ». En octobre, le PDG d’Anthropic, Dario Amodei, avait déclaré lors de la conférence Dreamforce que Claude rédigeait déjà 90 % du code pour la majorité des équipes internes. Toutefois, il a précisé que cela ne signifiait pas une réduction du nombre d’ingénieurs : « Si Claude écrit 90 % du code, cela veut dire que vous avez besoin tout aussi nombreux d’ingénieurs — voire davantage, car ils peuvent alors se concentrer sur les 10 % les plus complexes, comme l’édition du code ou la supervision d’un groupe de modèles d’IA. »

Liens associés

Claude 4.5 bat tous les humains sur un test d’ingénierie ultra-difficile d’Anthropic | Articles tendance | HyperAI