Command Palette

Search for a command to run...

2ヶ月前

TalkVid:音声駆動型トークヘッド合成のための大規模多様データセット

TalkVid:音声駆動型トークヘッド合成のための大規模多様データセット

要約

音声駆動型の会話頭部合成技術は、驚異的な写実性を達成しているが、最先端(SOTA)モデルには重要な欠陥が存在する。すなわち、人種、言語、年齢層といった人間の多様性の全範囲に対して一般化できないという点である。本研究では、この一般化のギャップが、既存の学習データに必要な規模・品質・多様性が不足していることに起因していると主張する。この課題に対処するため、我々は、7729人の個別な発話者から収集された合計1244時間の動画を含む、大規模かつ高品質で多様性に富んだ新データセット「TalkVid」を提案する。TalkVidは、運動の安定性、美的品質、顔面の細部表現を厳密に評価する、体系的で多段階にわたる自動パイプラインによって構築され、人間による評価と照合することで信頼性を検証している。さらに、主要な人口統計的・言語的軸にわたり精密にバランスを取った500本の動画からなる階層的評価セット「TalkVid-Bench」を構築・公開した。実験の結果、TalkVidで学習されたモデルは、従来のデータセットで学習されたモデルと比較して、より優れたクロスデータセット一般化性能を示した。特に、TalkVid-Benchを用いた分析から、従来の集計指標では見えにくかったサブグループ間の性能差が明らかになった。これは、今後の研究において本評価セットの必要性を強く示している。コードおよびデータは、https://github.com/FreedomIntelligence/TalkVid にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TalkVid:音声駆動型トークヘッド合成のための大規模多様データセット | 論文 | HyperAI超神経