Command Palette
Search for a command to run...

要約
音声駆動型の会話頭部合成技術は、驚異的な写実性を達成しているが、最先端(SOTA)モデルには重要な欠陥が存在する。すなわち、人種、言語、年齢層といった人間の多様性の全範囲に対して一般化できないという点である。本研究では、この一般化のギャップが、既存の学習データに必要な規模・品質・多様性が不足していることに起因していると主張する。この課題に対処するため、我々は、7729人の個別な発話者から収集された合計1244時間の動画を含む、大規模かつ高品質で多様性に富んだ新データセット「TalkVid」を提案する。TalkVidは、運動の安定性、美的品質、顔面の細部表現を厳密に評価する、体系的で多段階にわたる自動パイプラインによって構築され、人間による評価と照合することで信頼性を検証している。さらに、主要な人口統計的・言語的軸にわたり精密にバランスを取った500本の動画からなる階層的評価セット「TalkVid-Bench」を構築・公開した。実験の結果、TalkVidで学習されたモデルは、従来のデータセットで学習されたモデルと比較して、より優れたクロスデータセット一般化性能を示した。特に、TalkVid-Benchを用いた分析から、従来の集計指標では見えにくかったサブグループ間の性能差が明らかになった。これは、今後の研究において本評価セットの必要性を強く示している。コードおよびデータは、https://github.com/FreedomIntelligence/TalkVid にて公開されている。