Command Palette
Search for a command to run...
Gongfan Fang Xinyin Ma Xinchao Wang

초록
다음은 요청하신 텍스트의 한국어 번역입니다. 학술 및 기술 분야의 전문적인 문체와 용어를 사용하여 번역하였습니다.최근 대규모 비디오 생성 모델은 현재 관측된 정보의 논리적, 물리적 단서를 준수하는 미래 프레임을 예측할 수 있게 하는 강력한 시각적 성능을 입증했습니다. 본 연구에서는 프레임 내에 내재된 시각적 신호를 지시사항(instruction)으로 해석하여 제어 가능한 이미지-비디오(image-to-video) 생성에 활용할 수 있는지를 탐구하며, 이러한 패러다임을 '인-비디오 인스트럭션(In-Video Instruction)'이라 명명합니다.본질적으로 전역적(global)이고 세밀하지 않은(coarse) 텍스트 설명을 제공하는 프롬프트 기반 제어 방식과 달리, 인-비디오 인스트럭션은 텍스트 오버레이, 화살표, 궤적 등의 요소를 통해 사용자 가이드를 시각적 도메인에 직접 인코딩합니다. 이는 서로 다른 객체에 개별적인 지시를 할당함으로써, 시각적 대상과 의도된 동작 간의 명시적이고 공간 인지적(spatial-aware)이며 모호하지 않은 대응 관계를 가능하게 합니다.Veo 3.1, Kling 2.5, Wan 2.2를 포함한 세 가지 최신(SOTA) 생성 모델에 대한 광범위한 실험 결과, 비디오 모델이 특히 복잡한 다중 객체 시나리오에서 이러한 시각적 내장 지시를 신뢰성 있게 해석하고 실행할 수 있음을 보여줍니다.