Command Palette
Search for a command to run...
VideoPoet:ゼロショット動画生成のための大規模言語モデル
VideoPoet:ゼロショット動画生成のための大規模言語モデル
概要
VideoPoet を紹介します。これは、多様な条件信号(コンディショニング信号)を入力として、高品質な動画と同期した音声を合成できる言語モデルです。VideoPoet は、画像、動画、テキスト、音声など複数モーダルな入力を処理可能な、デコーダー専用のトランスフォーマー構造を採用しています。学習プロトコルは大規模言語モデル(LLM)と同様に、2段階のアプローチを採用しています。すなわち、事前学習(pretraining)とタスク固有の適応(task-specific adaptation)です。事前学習段階では、自己回帰型トランスフォーマー枠組み内に、複数のマルチモーダル生成目的を混合して用います。この事前学習済みLLMは、さまざまな動画生成タスクに適応可能な基盤として機能します。本研究では、ゼロショット動画生成において最先端の性能を実証する実証結果を提示し、特にVideoPoetが高忠実度の運動(モーション)を生成できる能力に着目しています。プロジェクトページ:http://sites.research.google/videopoet/