Command Palette
Search for a command to run...
Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

초록
확산 모델은 이미지 및 동영상 생성 분야에서 혁신을 이끌어내며, 전례 없는 시각적 품질을 달성하였다. 그러나 이러한 모델들은 트랜스포머 아키텍처에 크게 의존하면서, 특히 긴 동영상 생성에 확장할 경우 과도한 계산 비용을 수반한다. 최근 연구에서는 짧은 시점의 양방향 교사 모델로부터 지식 증류를 통해 긴 동영상 생성을 위한 자동회귀적 접근을 탐구해왔다. 그러나 교사 모델이 긴 동영상을 생성할 수 없기 때문에, 학습 시점 외로 확장되는 학생 모델의 예측은 지속적인 잠재 공간 내 오차의 누적이 초래되며, 이로 인해 품질 저하가 심각하게 나타나는 문제가 존재한다. 본 논문에서는 긴 동영상 교사 모델의 감독 없이, 또는 긴 동영상 데이터셋에 대한 재학습 없이도 품질 저하를 효과적으로 완화할 수 있는 간단하면서도 효과적인 방법을 제안한다. 제안하는 방법은 자가 생성한 긴 동영상에서 샘플링한 세그먼트를 활용하여 교사 모델의 풍부한 지식을 학생 모델에 안내하는 데 중점을 둔다. 이 방법은 동영상 길이를 교사 모델의 능력보다 최대 20배까지 확장하면서도 시간적 일관성을 유지하며, 이전 방법과 달리 겹치는 프레임을 재계산하지 않고도 과도한 노출이나 오차 누적 등의 일반적인 문제를 피할 수 있다. 계산 자원을 확장함에 따라 본 방법은 최대 4분 15초에 이르는 동영상을 생성할 수 있는 능력을 보이며, 기준 모델의 위치 임베딩이 지원하는 최대 길이의 99.9%에 달하며, 기존 기준 모델보다 50배 이상 긴 동영상을 생성할 수 있다. 표준 벤치마크 및 본 연구에서 제안한 개선된 벤치마크에서의 실험 결과를 통해, 본 방법이 품질과 일관성 측면에서 기존 기준 방법보다 뚜렷한 성능 향상을 보임을 입증하였다. 본 연구의 긴 시점 동영상 예시는 다음 웹사이트에서 확인할 수 있다: https://self-forcing-plus-plus.github.io/