HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

GenExam : un examen multidisciplinaire texte-à-image

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

GenExam : un examen multidisciplinaire texte-à-image

Résumé

Les examens constituent un test fondamental de l'intelligence de niveau expert, nécessitant une compréhension intégrée, un raisonnement et une génération. Les benchmarks existants dédiés aux examens se concentrent principalement sur les tâches de compréhension et de raisonnement, tandis que les benchmarks actuels mettent l'accent sur la représentation des connaissances du monde et des concepts visuels, négligeant ainsi l'évaluation des épreuves exigeant une production graphique rigoureuse. Nous introduisons GenExam, le premier benchmark dédié aux épreuves multidisciplinaires de génération d’images à partir de texte, comprenant 1 000 échantillons répartis sur 10 disciplines, avec des énoncés d’examen structurés selon une taxinomie en quatre niveaux. Chaque problème est accompagné d’une image de référence et de points de notation précis, permettant une évaluation fine de la justesse sémantique et de la plausibilité visuelle. Les expérimentations montrent que même les modèles les plus avancés, tels que GPT-Image-1 et Gemini-2.5-Flash-Image, obtiennent des scores stricts inférieurs à 15 %, et que la plupart des modèles atteignent presque 0 %, ce qui témoigne de la difficulté considérable de notre benchmark. En concevant la génération d’images comme un examen, GenExam offre une évaluation rigoureuse de la capacité des modèles à intégrer connaissance, raisonnement et génération, offrant ainsi des perspectives essentielles sur la voie menant à l’AGI générale.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GenExam : un examen multidisciplinaire texte-à-image | Articles de recherche | HyperAI