HyperAIHyperAI
vor 17 Tagen

BEAT: Ein großskaliges semantisches und emotionales multimodales Datensatz für die Synthese von Gesprächsgesten

Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng
BEAT: Ein großskaliges semantisches und emotionales multimodales Datensatz für die Synthese von Gesprächsgesten
Abstract

Die Erzeugung realistischer, lebendiger und menschenähnlicher synthetischer Gesprächsgesten, die auf multimodalen Daten bedingt sind, bleibt weiterhin ein ungelöstes Problem, da ausreichende Datensätze, Modelle und standardisierte Bewertungsmetriken fehlen. Um dieses Problem anzugehen, haben wir den Body-Expression-Audio-Text-Datensatz (BEAT) erstellt, der folgende Merkmale aufweist: i) 76 Stunden hochwertige, multimodale Daten, die von 30 Sprechern aufgezeichnet wurden, die mit acht verschiedenen Emotionen und in vier verschiedenen Sprachen sprechen, sowie ii) 32 Millionen framebasierte Annotationen zu Emotion und semantischer Relevanz. Unsere statistische Analyse von BEAT zeigt die Korrelation von Gesprächsgesten mit Gesichtsausdrücken, Emotionen und Semantik – zusätzlich zu den bereits bekannten Korrelationen mit Audio, Text und Sprecheridentität. Aufgrund dieser Beobachtung schlagen wir ein Basismodell, das Cascaded Motion Network (CaMN), vor, das die sechs Modalitäten in einer kaskadierten Architektur modelliert, um Gesten zu synthetisieren. Zur Bewertung der semantischen Relevanz führen wir eine Metrik ein: Semantic Relevance Gesture Recall (SRGR). Qualitative und quantitative Experimente belegen die Gültigkeit der Metrik, die Qualität der Ground-Truth-Daten sowie die state-of-the-art-Leistung des Basismodells. Soweit uns bekannt ist, ist BEAT der bislang größte Motion-Capture-Datensatz zur Untersuchung menschlicher Gesten und könnte zahlreiche Forschungsfelder beeinflussen, darunter kontrollierbare Gestensynthese, cross-modale Analyse und emotionale Gestenerkennung. Die Daten, der Code und das Modell sind unter https://pantomatrix.github.io/BEAT/ verfügbar.