HyperAI

OpenAI affirme que ChatGPT est déjà capable de réaliser certaines tâches professionnelles aussi bien que des humains. Face à des études récentes montrant que les entreprises tirent peu de bénéfices de leurs investissements en IA – notamment une étude du MIT Media Lab révélant que moins d’un dixième des projets pilotes génère un revenu mesurable, et que 95 % des organisations obtiennent un retour nul – OpenAI lance un nouveau cadre d’évaluation appelé GDPval. Ce benchmark vise à mesurer la capacité des modèles d’IA à accomplir des tâches réelles et économiquement pertinentes dans 44 métiers, dans les secteurs contribuant le plus au PIB américain : immobilier, gouvernement, fabrication, finance, et autres. Contrairement aux tests traditionnels basés sur des problèmes académiques abstraits, GDPval se concentre sur le travail concret, notamment le travail intellectuel. Pour construire ce cadre, OpenAI a recruté des professionnels expérimentés (en moyenne 14 ans d’expérience) dans chaque domaine pour concevoir des tâches réalistes, comme rédiger un mémoire juridique, élaborer un plan de soins infirmiers, produire un plan de construction ou gérer une interaction client. Chaque tâche a été accompagnée d’un exemple rédigé par un humain. Le rapport inclut 30 tâches entièrement revues par des experts par métier, ainsi qu’un ensemble « or » de cinq tâches publiées librement. Les performances ont été évaluées par des experts du même domaine, qui ont évalué les sorties d’IA de manière aveugle par rapport aux versions humaines, en les classant comme meilleures, équivalentes ou inférieures. Sur 220 tâches du jeu d’essai or, les résultats montrent que les meilleurs modèles d’IA s’approchent déjà du niveau humain. Claude Opus 4.1 s’est imposé avec un taux de victoires et d’égalités de 47,6 %, particulièrement fort sur la qualité esthétique (mise en forme, disposition des diapositives). GPT-5 high a terminé deuxième avec 38,8 %, excellant par sa précision et sa capacité à suivre des instructions complexes. GPT-4o a obtenu seulement 12,4 %, se montrant moins performant sur l’ensemble des tâches. Les modèles ont excellé dans des rôles comme les caissiers, les gestionnaires de stock, les gestionnaires commerciaux et les développeurs logiciels, mais ont peiné sur des métiers exigeant une expertise technique fine, comme les ingénieurs industriels, les pharmaciens, les gestionnaires financiers ou les monteurs vidéo. Par exemple, Claude Opus 4.1 a obtenu 81 % de réussite avec les tâches de caissier et 76 % pour les gestionnaires de stock, contre seulement 17 % pour les ingénieurs industriels et les monteurs vidéo. OpenAI souligne que ces modèles peuvent accomplir ces tâches 100 fois plus vite et 100 fois moins cher que les humains. Toutefois, l’entreprise insiste sur le fait qu’ils ne remplaceront pas les êtres humains, car la plupart des emplois impliquent bien plus que des tâches répétitives. « GDPval met en lumière où l’IA peut prendre en charge les tâches routinières, libérant les humains pour les aspects créatifs et décisionnels du travail », conclut OpenAI. Des experts du secteur saluent la pertinence de GDPval, qui permet de dépasser les discours hypes pour se concentrer sur des résultats mesurables. Cependant, certains rappellent que la qualité des tâches générées par l’IA dépend fortement de la précision des instructions et du contexte, et que le risque de « workslop » – du travail généré par l’IA qui semble productif mais manque de substance – reste élevé. Des entreprises comme Anthropic, Google et Microsoft, qui développent également des modèles d’IA professionnels, pourraient s’inspirer de ce cadre pour évaluer leurs propres systèmes.

ChatGPT et les grands modèles d’IA rattrapent les humains sur des tâches professionnelles réelles, selon une nouvelle étude d’OpenAI

Related Links