HyperAIHyperAI

Command Palette

Search for a command to run...

SpeakerVid-5M: 大規模高品質データセットによる音声視覚的な二人間相互作用のヒューマンジェネレーション

Youliang Zhang Zhaoyang Li Duomin Wang Jiahe Zhang Deyu Zhou Zixin Yin Xili Dai Gang Yu Xiu Li

概要

大規模モデルの急速な発展は、デジタルヒューマン分野における重要なブレークスルーをもたらしました。これらの先進的な手法は、アバターの駆動とレンダリングに高忠実度のソリューションを提供しており、学術界は次の主要な課題である音声・視覚二元対話型仮想ヒューマンに注目しています。この新興領域での研究を促進するため、SpeakerVid-5Mデータセットを紹介します。これは、音声・視覚二元対話型仮想ヒューマン生成のために設計された最初の大規模かつ高品質なデータセットです。SpeakerVid-5Mは総計8,743時間以上で、520万以上の人物像ビデオクリップを含んでいます。単独での話し言葉や聞き取り、二人間の会話など、多様なスケールと交互作用タイプがカバーされています。特に重要なのは、データセットが二つの主要次元に基づいて構造化されていることです:交互作用タイプとデータ品質。まず、交互作用シナリオに基づいて4つのタイプ(対話ブランチ、単一ブランチ、聞き取りブランチ、複数ターンブランチ)に分類されます。次に、大規模な事前学習サブセットと監督付き微調整(SFT)用の厳選された高品質サブセットに層別化されます。この二重構造により、多様な2D仮想ヒューマンタスクに対応できます。さらに、このデータ上で訓練された自己回帰(AR)ベースのビデオチャット基準モデルを提供し、将来の研究のために専用の評価指標とテストデータを含むベンチマークVidChatBenchも提供します。データセットおよび対応するデータ処理コードは公開される予定です。プロジェクトページ: https://dorniwang.github.io/SpeakerVid-5M/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています