한 달 전

GenExam: 다중학문적 텍스트-이미지 시험

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

초록

시험은 전문 수준의 지능을 평가하는 근본적인 수단으로, 통합된 이해력, 추론 능력 및 생성 능력을 요구한다. 기존의 시험 형식 기준 평가지표는 주로 이해 및 추론 과제에 초점을 맞추고 있으며, 현재의 생성형 기준 평가지표는 세계 지식과 시각적 개념의 표현을 강조하지만, 엄격한 그림 그리기 시험 평가를 소홀히 하고 있다. 우리는 다분야 텍스트-이미지 시험을 위한 최초의 기준 평가지표인 GenExam을 제안한다. 이 평가지표는 10개의 과목에 걸쳐 1,000개의 샘플을 포함하며, 시험 형식의 프롬프트를 네 수준의 분류 체계 아래에 체계적으로 정리하였다. 각 문제는 정답 이미지와 세밀한 채점 기준을 제공하여 의미적 정확성과 시각적 타당성을 정밀하게 평가할 수 있도록 한다. 실험 결과, 최첨단 모델인 GPT-Image-1 및 Gemini-2.5-Flash-Image조차도 엄격한 평가 기준에서 15% 미만의 점수를 기록하며, 대부분의 모델은 거의 0%에 가까운 성과를 보였고, 이는 본 평가지표가 지닌 높은 도전성임을 시사한다. 이미지 생성을 시험의 관점에서 재정의함으로써, GenExam은 모델의 지식 통합 능력, 추론 능력 및 생성 능력을 엄격하게 평가할 수 있는 기회를 제공하며, 일반화된 AGI(일반 인공지능) 달성로를 이해하는 데 중요한 통찰을 제공한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

GenExam: 다중학문적 텍스트-이미지 시험

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

초록

AI로 AI 구축

Hyper Newsletters