Command Palette

Search for a command to run...

13일 전

타임투무브: 이중클록 노이즈 제거를 통한 훈련 없이 움직임을 제어하는 비디오 생성

Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

타임투무브: 이중클록 노이즈 제거를 통한 훈련 없이 움직임을 제어하는 비디오 생성

초록

기반의 비디오 생성 기술은 현실감 있는 비디오를 생성할 수 있으나, 기존의 이미지 및 텍스트 기반 조건화는 정밀한 움직임 제어를 제공하지 못한다. 기존의 움직임 조건화 합성 기법은 보통 모델에 특화된 미세 조정(fine-tuning)을 필요로 하며, 이는 계산 비용이 높고 제약이 크다. 본 연구에서는 이미지-비디오(I2V) 확산 모델을 활용한 움직임 및 외관 제어가 가능한, 학습이 필요 없고 즉시 사용 가능한 플러그 앤 플레이(Plug-and-Play) 프레임워크인 Time-to-Move(TTM)을 제안한다. 본 연구의 핵심 통찰은 사용자 친화적인 조작(예: 자르기 및 끌기, 깊이 기반 재투영 등)을 통해 얻은 원시적인 참조 애니메이션을 활용하는 것이다. SDEdit가 이미지 편집에 있어 원시적인 레이아웃 힌트를 사용한 것에 영감을 받아, 본 연구에서는 이러한 원시적인 애니메이션을 원시적인 움직임 힌트로 간주하고, 이를 비디오 영역으로 확장하여 적용한다. 이미지 조건화를 통해 외관을 유지하고, 움직임 지정 영역에서는 강한 일치를 강제하면서도 다른 영역에서는 유연성을 유지하는 이중 클럭(dual-clock) 노이즈 제거(denoising) 전략을 도입함으로써, 사용자의 의도에 대한 충실도와 자연스러운 동역학 사이의 균형을 달성한다. 이 가벼운 샘플링 프로세스 수정은 추가적인 학습이나 런타임 비용 없이도 가능하며, 어떤 기반 모델과도 호환된다. 물체 및 카메라 움직임 벤치마크에서 실시한 광범위한 실험 결과, TTM은 현실감과 움직임 제어 면에서 기존의 학습 기반 기준보다 동등하거나 더 우수한 성능을 보였다. 또한 TTM은 텍스트만으로는 도달할 수 없는 한계를 넘어선 새로운 능력을 제공한다. 즉, 픽셀 단위의 조건화를 통해 정밀한 외관 제어가 가능하다. 동영상 예시 및 코드는 프로젝트 페이지에서 확인할 수 있다: https://time-to-move.github.io/.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
타임투무브: 이중클록 노이즈 제거를 통한 훈련 없이 움직임을 제어하는 비디오 생성 | 연구 논문 | HyperAI초신경