CVPR 2025에서 발표된 구글 딥마인드의 '모션 프롬프팅' 기술, 동영상 제작의 새로운 패러다임
CVPR 2025에서 발표된 주요 연구: 구글 딥마인드의 '모션 프롬프팅' 논문, 세밀한 비디오 제어 가능성을 열다 구글 딥마인드, 미시간 대학교, 브라운 대학교의 연구진이 '모션 프롬프팅'이라는 새로운 방법을 개발하여 비디오 생성을 특정 모션 경로를 사용해 제어하는 기술을 선보였습니다. 이 기술은 "모션 프롬프트"라는 움직임 표현 방식을 활용하여, 프리트레이닝된 비디오 확산 모델을 안내합니다. 모션 프롬프트는 시간과 공간적으로 희소하거나 밀도 높은 움직임 궤적을 의미하며, 이를 통해 복잡한 움직임을 정확하게 제어할 수 있습니다. 이 연구의 핵심 혁신 중 하나는 "모션 프롬프트 확장"입니다. 이 시스템은 사용자의 간단한 고차 요청, 예를 들어 마우스 드래그를 상세한 모션 지시로 변환합니다. 이를 통해 단일 통합 모델이 다양한 작업을 수행할 수 있습니다. 이 모델은 객체와 카메라 제어, 다른 비디오의 모션을 정적 이미지로 전송, 그리고 대화형 이미지 편집 등을 수행할 수 있으며, 각각의 특정 능력을 위해 재훈련을 할 필요가 없습니다. 제너레이티브 AI가 계속 발전함에 따라, 광고, 영화 제작, 인터랙티브 엔터테인먼트 등의 시장에서 비디오 생성에 대한 정밀한 제어는 중요한 관문이 되었습니다. 그러나 텍스트 프롬프트는 복잡하고 역동적인 움직임을 정확히 설명하는 데 한계가 있습니다. 예를 들어, "곰이 빠르게 머리를 돌린다"라는 프롬프트는 "빠르게"의 정확한 속도나 머리의 정확한 움직임 경로를 명확히 하기 어렵습니다. 모션 프롬프팅은 이러한 문제를 해결하여 사용자가 움직임 자체를 정의할 수 있게 함으로써, 더욱 표현력 있고 의도적인 비디오 콘텐츠를 만들 수 있는 길을 열었습니다. 모션 프롬프트 소개 이 연구의 중심에는 "모션 프롬프트"라는 개념이 있습니다. 연구진은 시간과 공간적으로 희소하거나 밀도 높은 모션 궤적이 모든 종류의 움직임을 표현하는 이상적인 방식이라고 파악했습니다. 이 유연한 형식은 머리카락의 미세한 깃발림부터 복잡한 카메라 움직임까지 어떤 움직임이라도 포착할 수 있습니다. 연구팀은 강력한 프리트레이닝된 비디오 확산 모델인 Lumiere 위에 ControlNet 어댑터를 훈련시켰습니다. ControlNet은 내부 데이터셋 220만 개의 비디오와, 이를 추출한 알고리즘인 BootsTAP을 사용하여 다양한 모션 트랙을 학습했습니다. 이 다채로운 훈련 덕분에 모델은 각각의 작업에 대한 특수한 엔지니어링 없이도 다양한 움직임을 이해하고 생성할 수 있습니다. 간단한 클릭에서 복잡한 장면까지: 모션 프롬프트 확장 사용자가 복잡한 장면의 모든 움직임 점을 지정하는 것은 현실적이지 않을 수 있습니다. 이를 해결하기 위해 연구진은 "모션 프롬프트 확장"이라는 과정을 개발했습니다. 이 시스템은 사용자의 간단한, 고차적인 입력을 모델이 필요한 상세하고 밀도 높은 모션 프롬프트로 변환합니다. 이를 통해 다양한 직관적인 응용 프로그램이 가능해졌습니다: 이미지와 "대화": 사용자는 정지 이미지에서 객체를 마우스로 클릭하고 드래그하여 이 객체를 움직일 수 있습니다. 예를 들어, 앵무새의 머리를 드래그하여 돌아가게 만들거나, 사람의 머리카락을 "놀리"면서 실제적인 비디오를 생성할 수 있습니다. 이 과정은 사용자가 커서로 모래를 "밀었을 때" 모래가 실제로 흩어지는 모습 등, 물리적으로 타당한 움직임을 생성하는 부상 행동도 발견하였습니다. 객체와 카메라 제어: 사용자가 기하학적 원시 도형(예: 보이지 않는 구체)을 조작하는 마우스 움직임을 해석하여, 고도의 제어를 가능하게 합니다. 예를 들어, 고양이의 머리를 정확히 회전시키거나, 첫 번째 프레임에서 장면의 깊이를 추정하여 원하는 카메라 경로를 프로젝션하여 복잡한 카메라 움직임을 생성할 수 있습니다. 모델은 이러한 프롬프트를 결합하여 객체와 카메라를 동시에 제어할 수도 있습니다. 모션 전송: 이 기술은 소스 비디오의 모션을 완전히 다른 주제의 정적 이미지로 전송할 수 있습니다. 연구진은 사람의 머리 움직임을 맷집으로 전송하여 동물을 "인형극"하는 방법을 시범 보였습니다. 실험 및 평가 연구팀은 이 접근 방식을 검증하기 위해 광범위한 정량적 평가와 인간 연구를 실시했습니다. 최근 모델인 Image Conductor와 DragAnything을 포함한 다양한 기준 모델과 비교하였으며, 이미지 품질(PSNR, SSIM)과 모션 정확성(EPE) 등 거의 모든 지표에서 새로운 모델이 기준 모델들을 능가하는 결과를 얻었습니다. 인간 연구에서도 이 결과가 확인되었습니다. 사용자들이 모션 프롬프팅으로 생성된 비디오와 다른 방법으로 생성된 비디오 사이에서 선택하도록 요청했을 때, 사용자들은 새로운 모델의 결과를 선호하였으며, 모션 명령에 대한 더 나은 준수, 더 실제적인 움직임, 그리고 전반적으로 더 높은 시각적 품질을 이유로 들었습니다. 한계와 미래 방향 연구진은 시스템의 현재 한계를 솔직하게 인정하였습니다. 때로는 모델이 객체의 일부가 배경에 잘못 "잠겨" 있을 경우 객체를 비현실적으로 늘리는 등의 자연스럽지 않은 결과를 생성할 수 있습니다. 그러나 연구진은 이러한 실패가 모델이 물리 세계를 "이해"하지 못하는 부분을 식별하는 데 귀중한 도구가 될 수 있다고 제안하였습니다. 이 연구는 진정으로 인터랙티브하고 제어 가능한 제너레이티브 비디오 모델 생성에 중요한 단계를 마련하였습니다. 움직임이라는 근본적인 요소에 초점을 맞추어, 연구팀은 사용자들이 비디오 프로덕션에서 AI의 전반적인 잠재력을 활용하고자 할 때 표준이 될 수 있는 범용적이고 강력한 도구를 제공하였습니다. 이 연구는 CVPR 2025에서 발표되었으며, 논문과 프로젝트 페이지를 확인해볼 것을 권장합니다. 이 연구의 모든 공로는 해당 프로젝트의 연구진들에게 돌아갑니다. 또한, 트위터를 팔로우하고 100,000명 이상의 ML SubReddit에 가입하거나 뉴스레터를 구독하여 최신 정보를 받아보세요.