6ヶ月前

コンピュータビジョン

画像から動画生成

マルチモーダル

コンピュータビジョン

Andrew Zisserman Olivia Wiles A. Sophia Koepke

概要

本論文の目的は、別の顔やモダリティ（例：音声など）を用いて、指定された顔のポーズおよび表情を制御するニューラルネットワークモデルの構築である。このモデルを用いることで、軽量かつ高精度な動画および画像編集が可能となる。本研究では以下の3つの貢献を行う。第一に、X2Faceと呼ばれるネットワークを提案する。このネットワークは、ドライビングフレームに含まれる別の顔を用いて、1つ以上のフレームで指定されるソース顔のアイデンティティを保持しつつ、ドライビングフレーム内の顔のポーズおよび表情を再現する生成フレームを出力する。第二に、大規模な動画データセットを用いて、ネットワークの訓練を完全に自己教師あり（fully self-supervised）の形で行う手法を提案する。第三に、ネットワークの再訓練を一切行わずに、音声やポーズコードなどの他のモダリティによって生成プロセスを駆動できることを示す。ドライビングフレームとして別の顔を用いた場合の生成結果について、最先端の自己教師あり／教師あり手法と比較したところ、本手法は入力データに対する仮定が少ないため、他の手法よりもよりロバストであることを示した。また、本フレームワークを用いた動画顔編集の具体例も提示する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

画像から動画生成

マルチモーダル

コンピュータビジョン

Andrew Zisserman Olivia Wiles A. Sophia Koepke

概要

本論文の目的は、別の顔やモダリティ（例：音声など）を用いて、指定された顔のポーズおよび表情を制御するニューラルネットワークモデルの構築である。このモデルを用いることで、軽量かつ高精度な動画および画像編集が可能となる。本研究では以下の3つの貢献を行う。第一に、X2Faceと呼ばれるネットワークを提案する。このネットワークは、ドライビングフレームに含まれる別の顔を用いて、1つ以上のフレームで指定されるソース顔のアイデンティティを保持しつつ、ドライビングフレーム内の顔のポーズおよび表情を再現する生成フレームを出力する。第二に、大規模な動画データセットを用いて、ネットワークの訓練を完全に自己教師あり（fully self-supervised）の形で行う手法を提案する。第三に、ネットワークの再訓練を一切行わずに、音声やポーズコードなどの他のモダリティによって生成プロセスを駆動できることを示す。ドライビングフレームとして別の顔を用いた場合の生成結果について、最先端の自己教師あり／教師あり手法と比較したところ、本手法は入力データに対する仮定が少ないため、他の手法よりもよりロバストであることを示した。また、本フレームワークを用いた動画顔編集の具体例も提示する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています