HyperAIHyperAI

Command Palette

Search for a command to run...

트래킹에서 구조를 추출하기: 비디오 생성을 위한 구조 보존 동작 학습

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

초록

현실은 엄격한 제약 조건과 변형 가능한 구조 사이의 춤과 같다. 영상 모델의 경우, 이는 구조를 유지하면서도 사실적인 움직임을 생성하는 것을 의미한다. 확산 모델의 발전에도 불구하고, 특히 인간이나 동물과 같은 관절 구조를 가진 변형 가능한 객체에 대해 구조를 유지하는 사실적인 움직임을 생성하는 것은 여전히 도전 과제이다. 지금까지 데이터 규모를 확장하는 것만으로는 물리적으로 부자연스러운 전이를 해결하지 못했다. 기존의 접근 방식은 외부의 불완전한 모델을 통해 추출한 광학 흐름이나 뼈대(skeleton)와 같은 노이즈가 포함된 움직임 표현을 조건으로 사용한다. 이러한 문제를 해결하기 위해, 우리는 자동회귀 영상 추적 모델(SAM2)에서 구조를 유지하는 움직임 사전 지식을 이중 방향 영상 확산 모델(CogVideoX)로 정제하는 알고리즘을 제안한다. 본 방법을 통해 SAM2VideoX를 개발하였으며, 두 가지 혁신적인 요소를 포함한다: (1) SAM2와 같은 순환 모델로부터 전역적인 구조 보존 움직임 사전 지식을 추출하는 이중 방향 특징 융합 모듈; (2) 국소 특징들이 함께 움직이는 방식을 정렬하는 로컬 그람 흐름 손실(Locall Gram Flow loss). VBench 및 인간 평가 실험 결과, 기존 베이스라인 대비 SAM2VideoX는 일관된 성능 향상을 보였다 (VBench에서 +2.60%, FVD는 21–22% 감소, 인간 선호도는 71.4%). 특히 VBench에서 95.51%의 성능을 달성하여 REPA(92.91%)보다 2.60% 향상되었으며, FVD는 360.57로 각각 REPA 및 LoRA 미세조정 대비 21.20%, 22.46% 개선되었다. 프로젝트 웹사이트는 https://sam2videox.github.io/ 에서 확인할 수 있다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp