HyperAIHyperAI
vor einem Monat

SpeakerVid-5M: Ein groß angelegtes hochwertiges Datensatz für audiovisuelle dyadische interaktive Humangenierung

Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
SpeakerVid-5M: Ein groß angelegtes hochwertiges Datensatz für audiovisuelle dyadische interaktive Humangenierung
Abstract

Die rasche Entwicklung von großen Modellen hat erhebliche Durchbrüche im Bereich der digitalen Menschen bewirkt. Diese fortschrittlichen Methoden bieten hochwertige Lösungen für die Steuerung und Darstellung von Avataren, was die Akademie dazu veranlasst hat, sich auf die nächste große Herausforderung zu konzentrieren: den audiovisuellen dyadischen interaktiven virtuellen Menschen. Um die Forschung in diesem aufstrebenden Bereich zu fördern, stellen wir den SpeakerVid-5M Datensatz vor, den ersten groß angelegten, hochwertigen Datensatz, der für die Generierung von audiovisuellen dyadischen interaktiven virtuellen Menschen entwickelt wurde. Mit insgesamt über 8.743 Stunden enthält SpeakerVid-5M mehr als 5,2 Millionen Videoclips von Porträts von Menschen. Er umfasst verschiedene Skalen und Interaktionstypen, darunter monadisches Sprechen, Zuhören und dyadische Konversationen. Von entscheidender Bedeutung ist, dass der Datensatz entlang zweier wesentlicher Dimensionen strukturiert ist: Interaktionstyp und Datenqualität. Erstens wird er auf Basis des Interaktionsszenarios in vier Kategorien eingeteilt (Dialogzweig, Einzelzweig, Zuhörzweig und Mehrfachzweig). Zweitens wird er in einen groß angelegten Vortrainings-Teil und einen sorgfältig ausgewählten Teil mit hoher Qualität für das überwachte Feinjustieren (Supervised Fine-Tuning, SFT) unterteilt. Diese doppelte Struktur ermöglicht es, eine breite Palette von 2D-Virtualemenschenaufgaben abzudecken. Darüber hinaus stellen wir eine autoregressive (AR)-basierte Videochat-Baseline bereit, die auf diesen Daten trainiert wurde. Sie wird durch ein speziell zusammengestelltes Set von Metriken und Testdaten ergänzt, das als Benchmark VidChatBench für zukünftige Arbeiten dienen soll. Sowohl der Datensatz als auch der entsprechende Datenverarbeitungscode werden öffentlich freigegeben. Projektseite: https://dorniwang.github.io/SpeakerVid-5M/

SpeakerVid-5M: Ein groß angelegtes hochwertiges Datensatz für audiovisuelle dyadische interaktive Humangenierung | Neueste Forschungsarbeiten | HyperAI