12日前

X2Face:画像、音声およびポーズコードを用いた顔生成を制御するためのネットワーク

{Andrew Zisserman, Olivia Wiles, A. Sophia Koepke}
X2Face:画像、音声およびポーズコードを用いた顔生成を制御するためのネットワーク
要約

本論文の目的は、別の顔やモダリティ(例:音声など)を用いて、指定された顔のポーズおよび表情を制御するニューラルネットワークモデルの構築である。このモデルを用いることで、軽量かつ高精度な動画および画像編集が可能となる。本研究では以下の3つの貢献を行う。第一に、X2Faceと呼ばれるネットワークを提案する。このネットワークは、ドライビングフレームに含まれる別の顔を用いて、1つ以上のフレームで指定されるソース顔のアイデンティティを保持しつつ、ドライビングフレーム内の顔のポーズおよび表情を再現する生成フレームを出力する。第二に、大規模な動画データセットを用いて、ネットワークの訓練を完全に自己教師あり(fully self-supervised)の形で行う手法を提案する。第三に、ネットワークの再訓練を一切行わずに、音声やポーズコードなどの他のモダリティによって生成プロセスを駆動できることを示す。ドライビングフレームとして別の顔を用いた場合の生成結果について、最先端の自己教師あり/教師あり手法と比較したところ、本手法は入力データに対する仮定が少ないため、他の手法よりもよりロバストであることを示した。また、本フレームワークを用いた動画顔編集の具体例も提示する。