Command Palette

Search for a command to run...

20일 전

시각화가 추론의 첫 번째 단계일 때: 시각적 체인오브사고를 위한 MIRA 벤치마크

시각화가 추론의 첫 번째 단계일 때: 시각적 체인오브사고를 위한 MIRA 벤치마크

초록

우리는 중간 단계의 시각적 이미지 생성이 성공적인 추론을 위해 필수적인 상황에서 모델의 성능을 평가하기 위해 새로운 벤치마크인 MIRA를 제안한다. 기존의 텍스트 중심의 사고 과정(Chain-of-Thought, CoT) 방법과 달리, MIRA의 과제는 모델이 스케치, 구조도, 경로도와 같은 중간 단계의 시각적 이미지를 생성하고 활용해야 하는 특징을 지닌다. 이 구조는 인간이 복잡한 문제를 해결할 때 ‘그림을 그리며 생각한다’는 인지 방식과 매우 유사하다. MIRA는 언어만으로는 충분히 표현하기 어려운 복잡한 구조, 공간적 관계, 또는 다단계 추론이 내재된 과제에 초점을 맞추어, 모델이 시각적 정보를 통한 추론을 필요로 하는 상황을 구현한다. 평가 데이터의 품질을 보장하기 위해, 중간 시각적 이미지와 최종 정답이 함께 레이블링된 546개의 다중모달 과제를 포함한다. 또한, MIRA에 대한 통합 평가 프로토콜을 제안하며, 평가 입력의 세 가지 수준을 구분한다: 이미지와 질문만을 입력하는 직접 입력, 이미지와 사고 유도 프롬프트를 포함한 텍스트 중심 CoT 입력, 그리고 레이블링된 시각적 힌트와 텍스트 기반 사고 프롬프트를 모두 제공하는 Visual-CoT 입력. 모델의 성능 한계를 탐색하기 위해, 다양한 k 값에 대한 pass@k 및 다수결 투표 정확도를 보고한다. 실험 결과, 기존의 다중모달 대규모 언어 모델(강력한 사내 모델과 우수한 오픈소스 모델을 포함)은 텍스트 프롬프트에만 의존할 경우 성능이 매우 낮은 것으로 나타났다. 그러나 중간 단계의 시각적 힌트가 제공되는 경우, 모든 모델과 과제에서 평균 33.7%의 상대적 성능 향상이 지속적으로 관찰되었다. 또한, 탐색 공간을 확장하고 Visual-CoT에 부합하는 텍스트 프롬프트를 설계하는 방식으로 상한선을 탐색했지만, 이들 접근법은 여전히 제안한 Visual-CoT 설정에 비해 제한적인 성능 향상만을 보였다. 이러한 결과는 MIRA에서 성공적인 추론을 가능하게 하기 위해 상상력 기반의 시각적 정보가 핵심적인 역할을 한다는 점을 강조한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
시각화가 추론의 첫 번째 단계일 때: 시각적 체인오브사고를 위한 MIRA 벤치마크 | 연구 논문 | HyperAI초신경