il y a 5 mois

Résumé

Les examens constituent un test fondamental de l'intelligence de niveau expert, nécessitant une compréhension intégrée, un raisonnement et une génération. Les benchmarks existants dédiés aux examens se concentrent principalement sur les tâches de compréhension et de raisonnement, tandis que les benchmarks actuels mettent l'accent sur la représentation des connaissances du monde et des concepts visuels, négligeant ainsi l'évaluation des épreuves exigeant une production graphique rigoureuse. Nous introduisons GenExam, le premier benchmark dédié aux épreuves multidisciplinaires de génération d’images à partir de texte, comprenant 1 000 échantillons répartis sur 10 disciplines, avec des énoncés d’examen structurés selon une taxinomie en quatre niveaux. Chaque problème est accompagné d’une image de référence et de points de notation précis, permettant une évaluation fine de la justesse sémantique et de la plausibilité visuelle. Les expérimentations montrent que même les modèles les plus avancés, tels que GPT-Image-1 et Gemini-2.5-Flash-Image, obtiennent des scores stricts inférieurs à 15 %, et que la plupart des modèles atteignent presque 0 %, ce qui témoigne de la difficulté considérable de notre benchmark. En concevant la génération d’images comme un examen, GenExam offre une évaluation rigoureuse de la capacité des modèles à intégrer connaissance, raisonnement et génération, offrant ainsi des perspectives essentielles sur la voie menant à l’AGI générale.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Vision Par Ordinateur

Tâche

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Vision Par Ordinateur

Tâche

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

GenExam : un examen multidisciplinaire texte-à-image | Articles | HyperAI

Command Palette

GenExam : un examen multidisciplinaire texte-à-image

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GenExam : un examen multidisciplinaire texte-à-image

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GenExam : un examen multidisciplinaire texte-à-image

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters