초록

현재의 영상 생성 기술은 단일 샷 클립 생성에서는 뛰어난 성능을 발휘하지만, 유연한 샷 배열, 일관된 내러티브 구조, 그리고 텍스트 프롬프트를 넘어서는 제어 가능성 요구가 있는 서사적 다중 샷 영상 생성에는 어려움을 겪고 있다. 이러한 도전 과제를 해결하기 위해, 매우 높은 제어성을 갖춘 다중 샷 영상 생성을 위한 프레임워크인 MultiShotMaster를 제안한다. 우리는 사전 학습된 단일 샷 모델을 확장하여 두 가지 새로운 형태의 RoPE(Rotary Position Embedding)를 도입한다. 첫째, 다중 샷 내러티브 RoPE를 제안하며, 이는 샷 전환 시 명시적인 위상 이동을 적용함으로써 유연한 샷 배열을 가능하게 하면서도 시간적 내러티브 순서를 유지한다. 둘째, 공간-시간 위치 인식 RoPE를 설계하여 참조 토큰과 기준 신호를 통합함으로써 공간-시간 기반의 참조 주입을 가능하게 한다. 또한 데이터 부족 문제를 극복하기 위해, 다중 샷 영상, 자막, 샷 간 기준 신호, 참조 이미지를 추출할 수 있는 자동화된 데이터 주석 처리 파이프라인을 구축하였다. 본 프레임워크는 내재된 아키텍처 특성을 활용하여 다중 샷 영상 생성을 지원하며, 텍스트 기반의 샷 간 일관성, 움직임 제어가 가능한 맞춤형 주체 생성, 배경 기반의 맞춤형 장면 생성을 특징으로 한다. 샷 수와 지속 시간 모두 유연하게 설정 가능하다. 광범위한 실험을 통해 본 프레임워크의 우수한 성능과 뛰어난 제어 가능성을 입증하였다.

소스 PDF