한 달 전

셀프포싱++: 분단위 고품질 영상 생성을 향하여

Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

초록

확산 모델은 이미지 및 동영상 생성 분야에서 혁신을 이끌어내며, 전례 없는 시각적 품질을 달성하였다. 그러나 이러한 모델들은 트랜스포머 아키텍처에 크게 의존하면서, 특히 긴 동영상 생성에 확장할 경우 과도한 계산 비용을 수반한다. 최근 연구에서는 짧은 시점의 양방향 교사 모델로부터 지식 증류를 통해 긴 동영상 생성을 위한 자동회귀적 접근을 탐구해왔다. 그러나 교사 모델이 긴 동영상을 생성할 수 없기 때문에, 학습 시점 외로 확장되는 학생 모델의 예측은 지속적인 잠재 공간 내 오차의 누적이 초래되며, 이로 인해 품질 저하가 심각하게 나타나는 문제가 존재한다. 본 논문에서는 긴 동영상 교사 모델의 감독 없이, 또는 긴 동영상 데이터셋에 대한 재학습 없이도 품질 저하를 효과적으로 완화할 수 있는 간단하면서도 효과적인 방법을 제안한다. 제안하는 방법은 자가 생성한 긴 동영상에서 샘플링한 세그먼트를 활용하여 교사 모델의 풍부한 지식을 학생 모델에 안내하는 데 중점을 둔다. 이 방법은 동영상 길이를 교사 모델의 능력보다 최대 20배까지 확장하면서도 시간적 일관성을 유지하며, 이전 방법과 달리 겹치는 프레임을 재계산하지 않고도 과도한 노출이나 오차 누적 등의 일반적인 문제를 피할 수 있다. 계산 자원을 확장함에 따라 본 방법은 최대 4분 15초에 이르는 동영상을 생성할 수 있는 능력을 보이며, 기준 모델의 위치 임베딩이 지원하는 최대 길이의 99.9%에 달하며, 기존 기준 모델보다 50배 이상 긴 동영상을 생성할 수 있다. 표준 벤치마크 및 본 연구에서 제안한 개선된 벤치마크에서의 실험 결과를 통해, 본 방법이 품질과 일관성 측면에서 기존 기준 방법보다 뚜렷한 성능 향상을 보임을 입증하였다. 본 연구의 긴 시점 동영상 예시는 다음 웹사이트에서 확인할 수 있다: https://self-forcing-plus-plus.github.io/

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

셀프포싱++: 분단위 고품질 영상 생성을 향하여

Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

초록

AI로 AI 구축

Hyper Newsletters