Command Palette

Search for a command to run...

23일 전

VideoCanvas: 문맥 조건부를 통한 임의의 시공간 패치로부터의 통합된 동영상 보완

Minghong Cai Qiulin Wang Zongli Ye Wenze Liu Quande Liu Weicai Ye Xintao Wang Pengfei Wan Kun Gai Xiangyu Yue

VideoCanvas: 문맥 조건부를 통한 임의의 시공간 패치로부터의 통합된 동영상 보완

초록

우리는 특정 공간 위치와 시점에 사용자가 지정한 패치를 임의로 배치함으로써 비디오를 생성하는 '임의의 시공간 비디오 보완( arbitrary spatio-temporal video completion)'이라는 새로운 작업을 제안한다. 이는 비디오 캔버스 위에 그림을 그리는 것과 유사한 유연한 접근 방식으로, 기존의 다양한 제어 가능한 비디오 생성 작업—첫 프레임 이미지에서 비디오 생성, 인페인팅(inpainting), 확장(extension), 보간(interpolation) 등—을 하나의 통합된 프레임워크 아래에서 자연스럽게 통합한다. 그러나 이러한 비전을 실현하기 위해서는 현대의 잠재 공간 비디오 확산 모델에서 근본적인 장애물이 존재한다. 즉, 인과적 VAE(causal VAE)에 의해 발생하는 시계열 모호성으로 인해, 여러 프레임의 픽셀이 단일한 잠재 표현으로 압축되면서 프레임 단위의 정밀한 조건부 제어가 구조적으로 어렵다는 점이다. 이 문제를 해결하기 위해 우리는 새로운 프레임워크인 VideoCanvas를 제안한다. 이는 추가적인 파라미터 없이 '컨텍스트 내 조건부 제어(In-Context Conditioning, ICC)' 개념을 미세한 제어 작업에 적응시킨다. 우리는 공간적 제어와 시간적 제어를 분리하는 하이브리드 조건부 전략을 제안한다. 공간적 위치는 제로 패딩(zero-padding)을 통해 처리하고, 시간적 정렬은 시간적 RoPE 보간(Temporal RoPE Interpolation)을 통해 달성한다. 이 방법은 각 조건에 잠재 시퀀스 내 연속적인 분수 위치를 할당함으로써 VAE의 시계열 모호성을 해소하며, 고정된 백본(frozen backbone)에서도 픽셀-프레임 인식 제어를 가능하게 한다. 이 새로운 능력을 평가하기 위해 우리는 'VideoCanvasBench'를 개발하였으며, 이는 시공간 비디오 보완을 위한 최초의 벤치마크로, 장면 내 정확성(intra-scene fidelity)과 장면 간 창의성(inter-scene creativity)을 모두 포괄한다. 실험 결과, VideoCanvas는 기존의 조건부 제어 방식을 크게 능가하며, 유연하고 통합적인 비디오 생성 분야에서 새로운 최고 성능(State-of-the-art)을 확립하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VideoCanvas: 문맥 조건부를 통한 임의의 시공간 패치로부터의 통합된 동영상 보완 | 연구 논문 | HyperAI초신경