7ヶ月前

概要

大規模モデルの急速な発展は、デジタルヒューマン分野における重要なブレークスルーをもたらしました。これらの先進的な手法は、アバターの駆動とレンダリングに高忠実度のソリューションを提供しており、学術界は次の主要な課題である音声・視覚二元対話型仮想ヒューマンに注目しています。この新興領域での研究を促進するため、SpeakerVid-5Mデータセットを紹介します。これは、音声・視覚二元対話型仮想ヒューマン生成のために設計された最初の大規模かつ高品質なデータセットです。SpeakerVid-5Mは総計8,743時間以上で、520万以上の人物像ビデオクリップを含んでいます。単独での話し言葉や聞き取り、二人間の会話など、多様なスケールと交互作用タイプがカバーされています。特に重要なのは、データセットが二つの主要次元に基づいて構造化されていることです：交互作用タイプとデータ品質。まず、交互作用シナリオに基づいて4つのタイプ（対話ブランチ、単一ブランチ、聞き取りブランチ、複数ターンブランチ）に分類されます。次に、大規模な事前学習サブセットと監督付き微調整（SFT）用の厳選された高品質サブセットに層別化されます。この二重構造により、多様な2D仮想ヒューマンタスクに対応できます。さらに、このデータ上で訓練された自己回帰（AR）ベースのビデオチャット基準モデルを提供し、将来の研究のために専用の評価指標とテストデータを含むベンチマークVidChatBenchも提供します。データセットおよび対応するデータ処理コードは公開される予定です。プロジェクトページ: https://dorniwang.github.io/SpeakerVid-5M/

ソースPDF コードを表示