Command Palette
Search for a command to run...
Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

Résumé
Les examens constituent un test fondamental de l'intelligence de niveau expert, nécessitant une compréhension intégrée, un raisonnement et une génération. Les benchmarks existants dédiés aux examens se concentrent principalement sur les tâches de compréhension et de raisonnement, tandis que les benchmarks actuels mettent l'accent sur la représentation des connaissances du monde et des concepts visuels, négligeant ainsi l'évaluation des épreuves exigeant une production graphique rigoureuse. Nous introduisons GenExam, le premier benchmark dédié aux épreuves multidisciplinaires de génération d’images à partir de texte, comprenant 1 000 échantillons répartis sur 10 disciplines, avec des énoncés d’examen structurés selon une taxinomie en quatre niveaux. Chaque problème est accompagné d’une image de référence et de points de notation précis, permettant une évaluation fine de la justesse sémantique et de la plausibilité visuelle. Les expérimentations montrent que même les modèles les plus avancés, tels que GPT-Image-1 et Gemini-2.5-Flash-Image, obtiennent des scores stricts inférieurs à 15 %, et que la plupart des modèles atteignent presque 0 %, ce qui témoigne de la difficulté considérable de notre benchmark. En concevant la génération d’images comme un examen, GenExam offre une évaluation rigoureuse de la capacité des modèles à intégrer connaissance, raisonnement et génération, offrant ainsi des perspectives essentielles sur la voie menant à l’AGI générale.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.