초록

현실은 엄격한 제약 조건과 변형 가능한 구조 사이의 춤과 같다. 영상 모델의 경우, 이는 구조를 유지하면서도 사실적인 움직임을 생성하는 것을 의미한다. 확산 모델의 발전에도 불구하고, 특히 인간이나 동물과 같은 관절 구조를 가진 변형 가능한 객체에 대해 구조를 유지하는 사실적인 움직임을 생성하는 것은 여전히 도전 과제이다. 지금까지 데이터 규모를 확장하는 것만으로는 물리적으로 부자연스러운 전이를 해결하지 못했다. 기존의 접근 방식은 외부의 불완전한 모델을 통해 추출한 광학 흐름이나 뼈대(skeleton)와 같은 노이즈가 포함된 움직임 표현을 조건으로 사용한다. 이러한 문제를 해결하기 위해, 우리는 자동회귀 영상 추적 모델(SAM2)에서 구조를 유지하는 움직임 사전 지식을 이중 방향 영상 확산 모델(CogVideoX)로 정제하는 알고리즘을 제안한다. 본 방법을 통해 SAM2VideoX를 개발하였으며, 두 가지 혁신적인 요소를 포함한다: (1) SAM2와 같은 순환 모델로부터 전역적인 구조 보존 움직임 사전 지식을 추출하는 이중 방향 특징 융합 모듈; (2) 국소 특징들이 함께 움직이는 방식을 정렬하는 로컬 그람 흐름 손실(Locall Gram Flow loss). VBench 및 인간 평가 실험 결과, 기존 베이스라인 대비 SAM2VideoX는 일관된 성능 향상을 보였다 (VBench에서 +2.60%, FVD는 21–22% 감소, 인간 선호도는 71.4%). 특히 VBench에서 95.51%의 성능을 달성하여 REPA(92.91%)보다 2.60% 향상되었으며, FVD는 360.57로 각각 REPA 및 LoRA 미세조정 대비 21.20%, 22.46% 개선되었다. 프로젝트 웹사이트는 https://sam2videox.github.io/ 에서 확인할 수 있다.

소스 PDF