초록

다중모달 학습은 강력한 대규모 언어모델(LLM)을 인지적 핵심으로 활용하는 다중모달 대규모 언어모델(MLLM)을 통해 시각적 이해 능력이 급속히 발전해왔다. 그러나 시각적 생성 분야에서는 이러한 강력한 핵심 모델들이 일반적으로 확산 모델(diffusion models)의 전역적 텍스트 인코더로만 활용되며, 그들의 추론 및 계획 능력의 대부분이 활용되지 못하는 상황이다. 이로 인해 발생하는 격차는 다음과 같다: 현재의 다중모달 LLM은 복잡한 레이아웃, 속성, 지식 집약적인 장면을 해석할 수 있지만, 동일하게 정밀하고 구조적인 제어를 갖춘 이미지나 영상을 생성하는 데는 여전히 어려움을 겪는다. 본 연구에서는 MLLM이 공간적 및 시공간적 잠재 공간에서 직접 추론하고 계획할 수 있도록 해주는 경량 프레임워크인 MetaCanvas를 제안한다. 이 프레임워크는 확산 생성기와 밀접하게 통합되어 작동한다. 우리는 MetaCanvas를 세 가지 다른 확산 백본에 실질적으로 구현하고, 텍스트-이미지 생성, 텍스트/이미지-영상 생성, 이미지/영상 편집, 그리고 컨텍스트 기반 영상 생성을 포함한 여섯 가지 작업에서 평가하였다. 각 작업은 정밀한 레이아웃, 강력한 속성 결합, 추론 중심의 제어 능력을 요구한다. 실험 결과 MetaCanvas는 전역 조건 기반 기준 모델들을 일관되게 상회하며, MLLM을 잠재 공간 내 계획자로 활용하는 것이 다중모달 이해와 생성 간 격차를 줄이는 데 매우 유망한 방향임을 시사한다.

소스 PDF