HyperAIHyperAI

Command Palette

Search for a command to run...

VideoPoet:ゼロショット動画生成のための大規模言語モデル

概要

VideoPoet を紹介します。これは、多様な条件信号(コンディショニング信号)を入力として、高品質な動画と同期した音声を合成できる言語モデルです。VideoPoet は、画像、動画、テキスト、音声など複数モーダルな入力を処理可能な、デコーダー専用のトランスフォーマー構造を採用しています。学習プロトコルは大規模言語モデル(LLM)と同様に、2段階のアプローチを採用しています。すなわち、事前学習(pretraining)とタスク固有の適応(task-specific adaptation)です。事前学習段階では、自己回帰型トランスフォーマー枠組み内に、複数のマルチモーダル生成目的を混合して用います。この事前学習済みLLMは、さまざまな動画生成タスクに適応可能な基盤として機能します。本研究では、ゼロショット動画生成において最先端の性能を実証する実証結果を提示し、特にVideoPoetが高忠実度の運動(モーション)を生成できる能力に着目しています。プロジェクトページ:http://sites.research.google/videopoet/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VideoPoet:ゼロショット動画生成のための大規模言語モデル | 記事 | HyperAI超神経