2ヶ月前

MeshTalk: 音声を使用した3D顔アニメーションのクロスモダリティ分離

Richard, Alexander ; Zollhoefer, Michael ; Wen, Yandong ; de la Torre, Fernando ; Sheikh, Yaser

要約

本論文では、音声から完全な顔の3次元アニメーションを生成する汎用的な方法を提案しています。既存の音声駆動型顔アニメーション手法は、不気味さや静止した上部顔アニメーションを示し、正確で現実的な共発音（co-articulation）を生成できないか、個人固有のモデルに依存してスケーラビリティが制限される傾向があります。これらの既存モデルの改善を目指し、我々は全顔に対して非常に現実的な動作合成結果を達成する汎用的な音声駆動型顔アニメーションアプローチを提案します。当アプローチの中心には、新しいクロスモダリティ損失に基づいて音声関連情報と音声非関連情報を分離する顔アニメーションのカテゴリカル潜在空間があります。このアプローチにより、高精度な唇の動きを確保しながら、音声信号と非関連な部分（例えばまばたきや眉毛の動き）も現実的に合成することができます。我々は本アプローチが複数のベースラインを超えており、定性的および定量的に最先端の品質を得ていることを示しています。知覚ユーザースタディでは、75%以上のケースで当アプローチが現在の最先端技術よりも現実的であると評価されています。本論文をお読みになる前に補足ビデオをご覧顶くことをお勧めします：https://github.com/facebookresearch/meshtalk