Command Palette
Search for a command to run...
Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

초록
시험은 전문 수준의 지능을 평가하는 근본적인 수단으로, 통합된 이해력, 추론 능력 및 생성 능력을 요구한다. 기존의 시험 형식 기준 평가지표는 주로 이해 및 추론 과제에 초점을 맞추고 있으며, 현재의 생성형 기준 평가지표는 세계 지식과 시각적 개념의 표현을 강조하지만, 엄격한 그림 그리기 시험 평가를 소홀히 하고 있다. 우리는 다분야 텍스트-이미지 시험을 위한 최초의 기준 평가지표인 GenExam을 제안한다. 이 평가지표는 10개의 과목에 걸쳐 1,000개의 샘플을 포함하며, 시험 형식의 프롬프트를 네 수준의 분류 체계 아래에 체계적으로 정리하였다. 각 문제는 정답 이미지와 세밀한 채점 기준을 제공하여 의미적 정확성과 시각적 타당성을 정밀하게 평가할 수 있도록 한다. 실험 결과, 최첨단 모델인 GPT-Image-1 및 Gemini-2.5-Flash-Image조차도 엄격한 평가 기준에서 15% 미만의 점수를 기록하며, 대부분의 모델은 거의 0%에 가까운 성과를 보였고, 이는 본 평가지표가 지닌 높은 도전성임을 시사한다. 이미지 생성을 시험의 관점에서 재정의함으로써, GenExam은 모델의 지식 통합 능력, 추론 능력 및 생성 능력을 엄격하게 평가할 수 있는 기회를 제공하며, 일반화된 AGI(일반 인공지능) 달성로를 이해하는 데 중요한 통찰을 제공한다.