vor 7 Monaten

Zusammenfassung

Die rasche Entwicklung von großen Modellen hat erhebliche Durchbrüche im Bereich der digitalen Menschen bewirkt. Diese fortschrittlichen Methoden bieten hochwertige Lösungen für die Steuerung und Darstellung von Avataren, was die Akademie dazu veranlasst hat, sich auf die nächste große Herausforderung zu konzentrieren: den audiovisuellen dyadischen interaktiven virtuellen Menschen. Um die Forschung in diesem aufstrebenden Bereich zu fördern, stellen wir den SpeakerVid-5M Datensatz vor, den ersten groß angelegten, hochwertigen Datensatz, der für die Generierung von audiovisuellen dyadischen interaktiven virtuellen Menschen entwickelt wurde. Mit insgesamt über 8.743 Stunden enthält SpeakerVid-5M mehr als 5,2 Millionen Videoclips von Porträts von Menschen. Er umfasst verschiedene Skalen und Interaktionstypen, darunter monadisches Sprechen, Zuhören und dyadische Konversationen. Von entscheidender Bedeutung ist, dass der Datensatz entlang zweier wesentlicher Dimensionen strukturiert ist: Interaktionstyp und Datenqualität. Erstens wird er auf Basis des Interaktionsszenarios in vier Kategorien eingeteilt (Dialogzweig, Einzelzweig, Zuhörzweig und Mehrfachzweig). Zweitens wird er in einen groß angelegten Vortrainings-Teil und einen sorgfältig ausgewählten Teil mit hoher Qualität für das überwachte Feinjustieren (Supervised Fine-Tuning, SFT) unterteilt. Diese doppelte Struktur ermöglicht es, eine breite Palette von 2D-Virtualemenschenaufgaben abzudecken. Darüber hinaus stellen wir eine autoregressive (AR)-basierte Videochat-Baseline bereit, die auf diesen Daten trainiert wurde. Sie wird durch ein speziell zusammengestelltes Set von Metriken und Testdaten ergänzt, das als Benchmark VidChatBench für zukünftige Arbeiten dienen soll. Sowohl der Datensatz als auch der entsprechende Datenverarbeitungscode werden öffentlich freigegeben. Projektseite: https://dorniwang.github.io/SpeakerVid-5M/

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Youliang Zhang Zhaoyang Li Duomin Wang Jiahe Zhang Deyu Zhou Zixin Yin Xili Dai Gang Yu Xiu Li

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Youliang Zhang Zhaoyang Li Duomin Wang Jiahe Zhang Deyu Zhou Zixin Yin Xili Dai Gang Yu Xiu Li

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SpeakerVid-5M: Ein groß angelegtes hochwertiges Datensatz für audiovisuelle dyadische interaktive Humangenierung

Youliang Zhang Zhaoyang Li Duomin Wang Jiahe Zhang Deyu Zhou Zixin Yin Xili Dai Gang Yu Xiu Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SpeakerVid-5M: Ein groß angelegtes hochwertiges Datensatz für audiovisuelle dyadische interaktive Humangenierung

Youliang Zhang Zhaoyang Li Duomin Wang Jiahe Zhang Deyu Zhou Zixin Yin Xili Dai Gang Yu Xiu Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SpeakerVid-5M: Ein groß angelegtes hochwertiges Datensatz für audiovisuelle dyadische interaktive Humangenierung

Youliang Zhang Zhaoyang Li Duomin Wang Jiahe Zhang Deyu Zhou Zixin Yin Xili Dai Gang Yu Xiu Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters