초록

현재의 다중모달 모델들은 텍스트-이미지(T2I) 작업을 통해 의미 일관성을 보정함으로써 단일 모달 표현의 한계를 극복하고 이해 및 생성을 통합하려는 목표를 가지고 있다. 그러나 훈련 및 평가 과정에서 정적이고 단일 이미지 생성에 의존함으로써, 모델들은 정적 패턴 매칭과 의미 융합에 과도하게 과적합되며, 시간에 따라 전개되는 동적 과정을 모델링하는 능력이 본질적으로 제한된다. 이러한 제약을 해결하기 위해 우리는 사슬형 텍스트-다중이미지 생성을 위한 인과적 사건 진행을 평가하는 벤치마크인 Envision을 제안한다. 세계 지식을 기반으로 시공간 인과성에 따라 구조화된 이 벤치마크는 기존 평가 차원을 재정렬하고, 과학 및 인문학 분야 6개에 걸친 1,000개의 4단계 프롬프트를 포함한다. 모델이 단일 이미지가 아닌 시계열 프레임을 다루는 능력, 그리고 인과적-시제적 제약을 준수하면서 세계 지식을 진정으로 내면화하는지 평가하기 위해, 다차원적 일관성, 물리성, 미학을 통합한 종합 평가 지표인 Envision-Score를 도입한다. 15개 모델(10개의 전문 T2I 모델, 5개의 통합 모델)에 대한 종합 평가 결과, 전문 T2I 모델은 미학적 렌더링 능력은 뛰어나지만 내재적 세계 지식이 부족함을 확인할 수 있었다. 반면, 통합 다중모달 모델은 이 격차를 메우며 인과적 내러티브 일관성 측면에서 전문 모델을 지속적으로 상회하였다. 그러나 이러한 통합 아키텍처조차도 폐쇄형 모델에 비해 열등하며, 시공간 일관성의 핵심 과제를 극복하는 데 어려움을 겪고 있다. 이는 인과적으로 분리된 단일 이미지에만 초점을 맞추는 접근이 다중 프레임 추론과 생성을 방해하며, 동적 세계 모델링보다 정적 패턴 매칭을 촉진함으로써 결국 세계 지식의 내면화와 생성 능력을 제한함을 시사한다.

소스 PDF 코드 보기