HyperAIHyperAI

Command Palette

Search for a command to run...

少ショットビデオ・トゥ・ビデオ合成

Ting-Chun Wang Ming-Yu Liu Andrew Tao Guilin Liu Jan Kautz Bryan Catanzaro

概要

ビデオ・トゥ・ビデオ合成(vid2vid)は、人間の姿勢やセグメンテーションマスクなどの入力意味論的ビデオを、出力の写実的なビデオに変換することを目指しています。vid2vidの最先端技術は大幅に進歩しましたが、既存のアプローチには2つの主要な制限があります。第一に、それらはデータ依存的です。目標の人間被験者やシーンの多数の画像が必要となります。第二に、学習したモデルの汎化能力は限定的です。姿勢から人間へのvid2vidモデルは、訓練セット内の単一の人間の姿勢のみを合成できます。訓練セットに含まれていない他の人間には汎化しません。これらの制限に対処するため、我々は少ショット・vid2vidフレームワークを提案します。このフレームワークは、テスト時に目標被験者またはシーンの少数の例示画像を利用することで、以前に見たことのない被験者やシーンのビデオを合成する能力を学習します。我々のモデルは、新しいネットワーク重み生成モジュール(attention mechanism)を利用して、この少ショット汎化能力を達成します。我々は大規模なビデオデータセット(人間ダンスビデオ、トーキングヘッドビデオ、街頭シーンビデオなど)を使用して、強力なベースラインとの比較を行う広範な実験検証を行いました。実験結果は、提案されたフレームワークが既存のvid2vidアプローチにおける2つの制限に対処する効果性を確認しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています