Command Palette
Search for a command to run...
Xinxin Liu Zhaopan Xu Kai Wang Yong Jae Lee Yuzhang Shang

초록
체인 오브 쓰ought(CoT) 프롬프팅은 대규모 언어 모델(LLM) 내에서 고도화된 기호적 추론을 가능하게 하지만, 여전히 이산적인 텍스트에 국한되어 실제 세계의 연속적이고 물리 법칙에 의해 규정되는 역학을 시뮬레이션하지 못한다. 최근 등장한 영상 생성 모델들은 프레임 단위 사고(Chain-of-Frames, CoF) 추론을 통해 잠재적인 세계 시뮬레이터로 부상하고 있다. 이는 사고를 프레임 단위 시각적 시퀀스로 구현하며, 각 프레임이 물리적으로 근거를 둔 추론 단계를 나타낸다. 비록 강력한 성능 예시들이 제시되었지만 여전히 해결해야 할 과제가 존재한다. 기존의 평가 벤치마크는 시각적 정확도나 일치도에 초점을 맞추고 있어 CoF 추론 자체를 평가하지 않으며, 이로 인해 다단계 계획, 알고리즘 논리, 추상적 패턴 외삽과 같은 핵심 인지 능력을 측정할 수 없다. 이러한 평가 공백은 모델의 능력에 대한 체계적인 이해를 방해하고, 개선을 위한 체계적인 지침을 제공하지 못하게 한다. 본 연구에서는 인지과학과 실제 세계의 AI 응용에 기반한 Gen-ViRe(Generative Visual Reasoning Benchmark) 프레임워크를 제안한다. 이 프레임워크는 CoF 추론을 인지적 차원 6개(지각적 논리에서 추상적 계획에 이르기까지)와 24개 하위 작업으로 분해하여 체계적으로 분석한다. 다양한 데이터 출처를 통합한 데이터 커리레이션, 최소한의 프롬프팅 프로토콜, 그리고 상세한 평가 기준을 갖춘 하이브리드 VLM(시각-언어 모델) 지원 평가 방식을 통해 Gen-ViRe는 영상 모델의 추론 능력을 처음으로 정량적으로 평가한다. 최신 기술(SOTA) 시스템에 대한 실험 결과, 놀라운 시각적 품질과 실제 추론의 깊이 사이에 상당한 격차가 존재함을 밝혀냈으며, 진정한 세계 시뮬레이터의 발전을 위한 기준선과 진단 도구를 제시한다.