Command Palette
Search for a command to run...
Wan-Move: 잠재 경로 안내를 통한 운동 제어 가능한 비디오 생성
Wan-Move: 잠재 경로 안내를 통한 운동 제어 가능한 비디오 생성
초록
우리는 동작 제어 기능을 영상 생성 모델에 도입하는 간단하고 확장 가능한 프레임워크인 Wan-Move를 제안한다. 기존의 동작 제어 가능 모델들은 일반적으로 제어의 세밀도가 낮고 확장성에 한계가 있어 실용적인 사용에 부적합한 출력을 생성하는 문제가 있다. 본 연구는 정밀하고 고품질의 동작 제어를 달성함으로써 이 격차를 좁힌다. 핵심 아이디어는 원본 조건 특징을 직접 동작 인지형(motion-aware) 특징으로 변환하여 영상 합성에 지도하는 것이다. 이를 위해 먼저 밀도 높은 점 궤적을 사용해 객체의 움직임을 표현함으로써 장면에 대한 세밀한 제어를 가능하게 한다. 이후 이러한 궤적을 잠재 공간에 투영하고, 첫 프레임의 특징을 각 궤적을 따라 전파함으로써, 장면의 각 요소가 어떻게 움직여야 하는지를 명시하는 정렬된 시공간 특징 맵을 생성한다. 이 특징 맵은 업데이트된 잠재 조건으로서, Wan-I2V-14B와 같은 사전 훈련된 이미지-영상 모델에 아키텍처 변경 없이 자연스럽게 통합되어 동작 가이드라인으로 작용한다. 이는 보조 동작 인코더의 필요성을 제거하고, 기반 모델의 미세 조정이 쉽게 확장 가능하게 한다. 대규모 훈련을 통해 Wan-Move는 5초, 480p 해상도의 영상을 생성하며, 사용자 평가 결과에 따르면 Kling 1.5 Pro의 상용 동작 브러시 기능과 경쟁 수준의 동작 제어 성능을 달성한다. 포괄적인 평가를 지원하기 위해, 다양한 콘텐츠 카테고리와 하이브리드 검증(annotation)을 갖춘 MoveBench라는 엄격히 구성된 벤치마크를 추가로 설계하였다. 이 벤치마크는 더 큰 데이터 볼륨, 더 긴 영상 길이, 고품질의 동작 레이블을 특징으로 한다. MoveBench 및 공개 데이터셋에서 수행된 광범위한 실험 결과는 Wan-Move의 우수한 동작 품질을 일관되게 입증한다. 코드, 모델, 벤치마크 데이터는 모두 공개되어 있다.