Command Palette
Search for a command to run...
Cong Wei Quande Liu Zixuan Ye Qiulin Wang Xintao Wang Pengfei Wan Kun Gai Wenhu Chen

초록
통합 다중모달 모델은 다중모달 콘텐츠 생성 및 편집 분야에서 희망적인 성과를 보였지만, 대부분 이미지 영역에 국한되어 있다. 본 연구에서는 통합 모델링을 영상 영역으로 확장하는 유연한 프레임워크인 UniVideo를 제안한다. UniVideo는 지시어 이해를 위한 다중모달 대규모 언어 모델(Multimodal Large Language Model, MLLM)과 영상 생성을 위한 다중모달 DiT(Multimodal DiT, MMDiT)를 결합한 이중 스트림 설계를 채택한다. 이 설계는 복잡한 다중모달 지시어를 정확히 해석하면서도 시각적 일관성을 유지할 수 있게 한다. 이러한 아키텍처를 기반으로, UniVideo는 단일 다중모달 지시어 패러다임 아래 다양한 영상 생성 및 편집 작업을 통합하고, 이를 공동으로 훈련한다. 광범위한 실험을 통해 UniVideo가 텍스트/이미지 → 영상 생성, 문맥 기반 영상 생성, 문맥 기반 영상 편집 등에서 기존의 최고 수준의 작업 특화 기준 모델과 비교해 동등하거나 우수한 성능을 보임을 입증했다. 특히 UniVideo의 통합 설계는 두 가지 형태의 일반화를 가능하게 한다. 첫째, 하나의 지시어 안에 여러 기능을 통합함으로써 편집과 스타일 전이를 결합하는 등 작업 조합을 지원한다. 둘째, 자유형 영상 편집에 대한 명시적 훈련 없이도, 대규모 이미지 편집 데이터에서 학습한 편집 능력을 이 영역으로 전이하여, 그린스크린 처리, 영상 내 재질 변경 등 미리 경험하지 않은 지시어를 처리할 수 있다. 이러한 핵심 기능 외에도, UniVideo는 시각적 프롬프트 기반 영상 생성을 지원하며, MLLM이 시각적 프롬프트를 해석하고 생성 과정에서 MMDiT를 안내한다. 향후 연구를 촉진하기 위해, 우리는 본 모델과 코드를 공개할 예정이다.