HyperAI초신경
16일 전

Shape-for-Motion: 3D 프록시를 활용한 정밀하고 일관된 비디오 편집

Yuhao Liu; Tengfei Wang; Fang Liu; Zhenwei Wang; Rynson W.H. Lau
Shape-for-Motion: 3D 프록시를 활용한 정밀하고 일관된 비디오 편집
초록

최근 딥 제너레이티브 모델링의 발전으로 비디오 합성에 있어 전례 없는 기회가 열렸습니다. 그러나 실제 응용 분야에서는 사용자들이 창의적인 편집 의도를 정확하고 일관되게 구현할 수 있는 도구를 찾는 경우가 많습니다. 기존 방법들로 달성된 진전에도 불구하고, 사용자의 의도와 미세한 일치성을 보장하는 것은 여전히 해결되지 않고 어려운 문제입니다. 본 연구에서는 Shape-for-Motion이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 3D 프록시를 활용하여 정확하고 일관된 비디오 편집을 수행합니다. Shape-for-Motion은 입력 비디오의 대상 객체를 시간적으로 일관된 메시(3D 프록시)로 변환하여, 직접 프록시에서 편집을 수행한 후 이를 다시 비디오 프레임으로 추론해내는 방식을 취합니다. 편집 과정을 단순화하기 위해, 우리는 사용자가 단일 프레임의 3D 메시에서 편집을 수행할 수 있도록 설계된 새로운 듀얼-프로파게이션 전략(Dual-Propagation Strategy)을 제안합니다. 이렇게 편집된 내용은 자동으로 다른 프레임들의 3D 메시로 전파됩니다. 서로 다른 프레임들의 3D 메시는 2D 공간으로 더 나아가서 편집된 기하학적 구조와 질감 렌더링을 생성하며, 이들은 분리형 비디오 확산 모델(decoupled video diffusion model)의 입력으로 사용되어 최종적으로 편집된 결과물을 생성합니다. 우리의 프레임워크는 포즈 편집, 회전, 스케일링, 이동, 질감 수정 및 객체 구성 등 다양한 정밀하고 물리적으로 일관된 조작을 지원합니다. 우리의 접근 방식은 고품질이고 제어 가능한 비디오 편집 워크플로우를 위한 중요한 단계를 마련하였습니다. 광범위한 실험 결과들은 우리 접근 방식의 우수성과 효과성을 입증하고 있습니다. 프로젝트 페이지: https://shapeformotion.github.io/