5ヶ月前

テキストから画像生成

ベンチマーク

AIインフラストラクチャ

マルチモーダル

コンピュータビジョン

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

概要

試験は、専門的知能の本質を測る基本的な指標であり、統合的な理解力、推論力、生成能力を要する。現在の試験形式のベンチマークは主に理解と推論タスクに注目しており、最新のベンチマークは世界知識や視覚的概念の表現に重きを置いているが、厳密な図解試験の評価にはほとんど注目していない。本研究では、多分野にわたるテキストから画像への生成試験を対象とした、世界初のベンチマーク「GenExam」を提案する。本ベンチマークは、10の教科にわたり1,000件のサンプルを含み、四段階の分類体系に基づいて試験形式のプロンプトが構成されている。各問題には正解画像と細分化された採点基準が付与されており、意味的正確性と視覚的妥当性の精密な評価を可能にしている。実験の結果、最先端モデルであるGPT-Image-1やGemini-2.5-Flash-Imageですら厳密採点で15％未満のスコアにとどまり、多くのモデルはほぼ0％のスコアを記録していることから、本ベンチマークが示す課題の難易度の高さが明らかになった。画像生成を試験という枠組みで捉えることにより、GenExamは、知識の統合、推論、生成能力を統合的に評価する厳密な評価基準を提供し、汎用人工一般知能（AGI）の実現に向けた道筋に関する貴重な知見をもたらす。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

テキストから画像生成

ベンチマーク

AIインフラストラクチャ

マルチモーダル

コンピュータビジョン

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

概要

試験は、専門的知能の本質を測る基本的な指標であり、統合的な理解力、推論力、生成能力を要する。現在の試験形式のベンチマークは主に理解と推論タスクに注目しており、最新のベンチマークは世界知識や視覚的概念の表現に重きを置いているが、厳密な図解試験の評価にはほとんど注目していない。本研究では、多分野にわたるテキストから画像への生成試験を対象とした、世界初のベンチマーク「GenExam」を提案する。本ベンチマークは、10の教科にわたり1,000件のサンプルを含み、四段階の分類体系に基づいて試験形式のプロンプトが構成されている。各問題には正解画像と細分化された採点基準が付与されており、意味的正確性と視覚的妥当性の精密な評価を可能にしている。実験の結果、最先端モデルであるGPT-Image-1やGemini-2.5-Flash-Imageですら厳密採点で15％未満のスコアにとどまり、多くのモデルはほぼ0％のスコアを記録していることから、本ベンチマークが示す課題の難易度の高さが明らかになった。画像生成を試験という枠組みで捉えることにより、GenExamは、知識の統合、推論、生成能力を統合的に評価する厳密な評価基準を提供し、汎用人工一般知能（AGI）の実現に向けた道筋に関する貴重な知見をもたらす。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています