Command Palette
Search for a command to run...

초록
최신 기술 기반의 텍스트-비디오 모델은 단일 클립 생성에는 뛰어나지만, 스토리텔링의 핵심인 일관성 있는 다중 장면 서사 생성에는 여전히 한계를 보인다. 우리는 이러한 '서사 갭'을 보완하기 위해, 처음 장면부터 마지막 장면까지 전역적인 일관성을 보장할 수 있도록 전체 장면을 종합적으로 생성하는 HoloCine 모델을 제안한다. 본 모델의 아키텍처는 특정 장면에 텍스트 프롬프트를 정밀하게 할당하는 '윈도우 크로스 어텐션(Windows Cross-Attention)' 메커니즘을 통해 정교한 연출 제어를 가능하게 하며, 장면 내부에서는 밀집형, 장면 간에는 희소형으로 구성된 '희소한 장면 간 자기 어텐션(Sparse Inter-Shot Self-Attention)' 패턴을 통해 분단위 규모의 생성에 필요한 효율성을 확보한다. HoloCine은 서사 일관성 측면에서 새로운 최고 수준의 성능을 달성할 뿐만 아니라, 등장인물과 장면에 대한 지속적인 기억 능력, 그리고 영화 제작 기법에 대한 직관적인 이해라는 놀라운 잠재적 능력을 발현한다. 본 연구는 단순한 클립 합성에서 자동 영화 제작으로의 전환을 의미하는 중대한 전환점을 마련하며, 엔드투엔드(end-to-end) 영화 제작이 현실적인 미래로 다가오게 한다. 코드는 다음 링크에서 확인할 수 있다: https://holo-cine.github.io/.