HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 5 jours

L'Indice de productivité de l'IA (APEX)

L'Indice de productivité de l'IA (APEX)

Résumé

Nous présentons la première version de l’Index de Productivité Artificielle (APEX), une référence destinée à évaluer si les modèles d’intelligence artificielle de pointe sont capables d’accomplir des tâches de connaissance à haute valeur économique. APEX répond à l’une des plus grandes inefficacités dans la recherche en IA : en dehors du domaine du codage, les benchmarks sont souvent incapables de mesurer des capacités économiquement pertinentes. APEX-v1.0 comprend 200 cas d’évaluation et couvre quatre domaines : banque d’investissement, conseil en gestion, droit et soins primaires en santé. Son développement s’est déroulé en trois étapes. Premièrement, nous avons recruté des experts issus de milieux de haut niveau, par exemple des banquiers d’investissement de Goldman Sachs. Deuxièmement, ces experts ont conçu des prompts reflétant des tâches à haute valeur dans leur travail quotidien. Troisièmement, ils ont établi des grilles d’évaluation pour juger les réponses des modèles. Nous avons évalué 23 modèles de pointe sur APEX-v1.0 à l’aide d’un juge fondé sur un modèle linguistique (LM judge). GPT 5 (Thinking = High) obtient le score moyen le plus élevé (64,2 %), suivi de Grok 4 (61,3 %) et de Gemini 2.5 Flash (Thinking = On) (60,4 %). Qwen 3 235B se distingue comme le meilleur modèle open-source, classé septième au classement général. Un écart important subsiste entre les performances des meilleurs modèles et celles des experts humains, soulignant la nécessité de développer des méthodes de mesure plus précises de la capacité des modèles à produire un travail à valeur économique réelle.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp