Zhiyuan Li Chi-Man Pun Chen Fang Jue Wang Xiaodong Cun

要約
現在の拡散モデルを用いたポートレートアニメーション手法は、主に視覚的品質や表情の現実性の向上に注力しているが、生成遅延やリアルタイム性能には十分な配慮がなされておらず、ライブストリーミングシーンにおける応用範囲に制限が生じている。本研究では、マルチステージの学習手法を採用した新しい拡散モデルフレームワーク「PersonaLive」を提案する。本手法は、ライブストリーミング向けのリアルタイムポートレートアニメーションを実現することを目的としている。具体的には、表現力豊かな画像レベルの運動制御を実現するため、顔面の暗黙的表現(implicit facial representations)と3D暗黙的キーポイントを組み合わせたハイブリッド暗黙信号を導入する。次に、ノイズ除去プロセスにおける外見情報の冗長性を削減するため、ステップ数を大幅に削減した外見蒸留(appearance distillation)戦略を提案し、推論効率を著しく向上させる。さらに、自己回帰型のマイクロチャンクストリーミング生成パラダイムを導入し、スライディング学習戦略と履歴キーフレームメカニズムを組み合わせることで、低遅延かつ安定した長期動画生成を実現する。広範な実験により、PersonaLiveが従来の拡散ベースポートレートアニメーションモデルに対して最大7~22倍の高速化を達成し、最先端の性能を示すことが確認された。