HyperAIHyperAI

Command Palette

Search for a command to run...

BEAT: Ein großskaliges semantisches und emotionales multimodales Datensatz für die Synthese von Gesprächsgesten

Haiyang Liu Zihao Zhu Naoya Iwamoto Yichen Peng Zhengqing Li You Zhou Elif Bozkurt Bo Zheng

Zusammenfassung

Die Erzeugung realistischer, lebendiger und menschenähnlicher synthetischer Gesprächsgesten, die auf multimodalen Daten bedingt sind, bleibt weiterhin ein ungelöstes Problem, da ausreichende Datensätze, Modelle und standardisierte Bewertungsmetriken fehlen. Um dieses Problem anzugehen, haben wir den Body-Expression-Audio-Text-Datensatz (BEAT) erstellt, der folgende Merkmale aufweist: i) 76 Stunden hochwertige, multimodale Daten, die von 30 Sprechern aufgezeichnet wurden, die mit acht verschiedenen Emotionen und in vier verschiedenen Sprachen sprechen, sowie ii) 32 Millionen framebasierte Annotationen zu Emotion und semantischer Relevanz. Unsere statistische Analyse von BEAT zeigt die Korrelation von Gesprächsgesten mit Gesichtsausdrücken, Emotionen und Semantik – zusätzlich zu den bereits bekannten Korrelationen mit Audio, Text und Sprecheridentität. Aufgrund dieser Beobachtung schlagen wir ein Basismodell, das Cascaded Motion Network (CaMN), vor, das die sechs Modalitäten in einer kaskadierten Architektur modelliert, um Gesten zu synthetisieren. Zur Bewertung der semantischen Relevanz führen wir eine Metrik ein: Semantic Relevance Gesture Recall (SRGR). Qualitative und quantitative Experimente belegen die Gültigkeit der Metrik, die Qualität der Ground-Truth-Daten sowie die state-of-the-art-Leistung des Basismodells. Soweit uns bekannt ist, ist BEAT der bislang größte Motion-Capture-Datensatz zur Untersuchung menschlicher Gesten und könnte zahlreiche Forschungsfelder beeinflussen, darunter kontrollierbare Gestensynthese, cross-modale Analyse und emotionale Gestenerkennung. Die Daten, der Code und das Modell sind unter https://pantomatrix.github.io/BEAT/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp