7日前
Tell Me What Happened: Multimodal Masked Video Generationを用いたテキスト誘導型動画補完の統合
Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell

要約
最初の数枚の静止画から動画を生成することは、時間的に一貫性のある合理的な未来のフレームを予測するという点で困難である。動画予測に加えて、最後のフレームから逆再生する、または先頭と末端の間を補完する能力も、動画の完成(video completion)において重要であるが、これらのタスクはこれまでほとんど研究されてこなかった。わずかなフレームのヒントから複数の異なる結果が得られる可能性があるため、自然言語の指示に従って動画完成を行うことができるシステムは、制御性を著しく向上させる可能性がある。このような観点から、本研究では、指示(instruction)に基づいて部分的なフレームから動画を生成するという新しいタスクである「テキスト誘導型動画完成(Text-guided Video Completion, TVC)」を提案する。さらに、このTVCタスクに対応するため、マルチモーダルマスク付き動画生成(Multimodal Masked Video Generation, MMVG)を提案する。訓練段階では、MMVGは動画フレームを視覚トークンに離散化し、大部分をマスクすることで、任意の時刻から動画完成を実現する。推論段階では、適切なマスク条件を適用するだけで、単一のMMVGモデルでTVCの3つのケース(動画予測、逆再生、中間補完)をすべて対応可能となる。MMVGは、エゴセントリック動画、アニメーション、ゲーム映像など、さまざまな動画シナリオにおいて評価された。広範な実験結果から、MMVGがテキストの指示に基づき、高品質な視覚的表現を効果的に生成できることを示した。