7일 전

내가 무슨 일이 있었는지 말해줘: 다중모달 마스크된 비디오 생성을 통한 텍스트 유도 비디오 완성 통합

Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell

초록

처음 몇 장의 정적 프레임을 주었을 때 이를 바탕으로 동영상을 생성하는 것은 시간적 일관성을 유지하면서 합리적인 미래 프레임을 예측해야 하기 때문에 도전적인 과제이다. 동영상 예측 외에도 마지막 프레임에서 되돌리기 또는 앞부분과 뒷부분 사이의 공백 채우기(infilling) 능력 역시 동영상 완성(video completion)에 있어 중요하지만, 이러한 기능들은 여전히 거의 탐구되지 않은 분야이다. 단지 몇 장의 프레임만으로도 다양한 결과가 도출될 수 있기 때문에, 자연어 지시에 따라 동영상을 완성할 수 있는 시스템은 명확한 제어 가능성을 크게 향상시킬 수 있다. 이러한 아이디어에서 영감을 받아, 우리는 지시(instruction)에 따라 부분적으로 주어진 프레임에서 동영상을 생성하도록 요청하는 새로운 작업인 텍스트 유도 동영상 완성(text-guided video completion, TVC)을 제안한다. 이를 해결하기 위해 다중모달 마스킹 동영상 생성(Multimodal Masked Video Generation, MMVG)을 제안한다. 학습 과정에서 MMVG는 동영상 프레임을 시각적 토큰으로 나누고, 대부분의 프레임을 마스킹하여 임의의 시점에서 동영상 완성을 수행한다. 추론 시에는 해당 마스킹 조건을 적절히 적용함으로써 단일 MMVG 모델이 TVC의 세 가지 경우—동영상 예측, 되돌리기, 중간 채우기—를 모두 처리할 수 있다. 우리는 egocentric, 애니메이션, 게임 등 다양한 동영상 시나리오에서 MMVG를 평가하였으며, 광범위한 실험 결과는 텍스트 지시에 따라 고품질의 시각적 표현을 효과적으로 생성할 수 있음을 보여준다.