초록

인터랙티브하고 역동적인 세계를 시뮬레이션하는 데 있어 효율적인 스트리밍 영상 생성은 핵심적인 과제이다. 기존의 방법들은 슬라이딩 윈도우 어텐션을 활용하여 단수 단계의 영상 확산 모델을 정제하는 방식을 채택하고 있으며, 초기 프레임을 수신 토큰(sink token)으로 사용함으로써 어텐션 성능을 유지하고 오차 누적을 줄인다. 그러나 이러한 접근은 영상 프레임이 정적 수신 토큰에 과도하게 의존하게 되어 초기 프레임이 반복되며 운동 동역학이 약화되는 문제가 발생한다. 이를 해결하기 위해 우리는 두 가지 핵심 설계를 포함한 새로운 프레임워크인 Reward Forcing을 제안한다. 첫째, 초기 프레임에서 초기화된 고정 크기의 토큰을 유지하면서, 슬라이딩 윈도우를 벗어나는 토큰들을 지수 이동 평균(Exponential Moving Average, EMA)을 통해 융합하여 지속적으로 업데이트하는 EMA-Sink를 제안한다. 추가적인 계산 비용 없이 EMA-Sink 토큰은 장기적 맥락과 최신 동역학을 모두 포착할 수 있어, 초기 프레임의 복제를 방지하면서도 장기적 일관성을 유지한다. 둘째, 교사 모델로부터 운동 동역학을 더 효과적으로 정제하기 위해, 새로운 보상 기반 분포 매칭 정제(Re-DMD: Rewarded Distribution Matching Distillation)를 제안한다. 기존의 분포 매칭은 모든 학습 샘플을 동일하게 취급하기 때문에, 동적 콘텐츠를 우선적으로 학습하는 능력이 제한된다. 반면 Re-DMD는 시각-언어 모델(Vision-Language Model)을 통해 동적 수준이 높은 샘플을 우선적으로 평가하여, 모델의 출력 분포를 고보상 영역으로 편향시킴으로써 동적 콘텐츠의 학습을 강화한다. 이로 인해 운동 품질이 크게 향상되면서도 데이터의 정확성은 유지된다. 양적 및 질적 실험을 통해 Reward Forcing이 표준 벤치마크에서 최신 기술(SOTA) 성능을 달성함과 동시에 단일 H100 GPU에서 23.1 FPS의 고품질 스트리밍 영상 생성을 가능하게 함을 입증하였다.

소스 PDF 코드 보기