Lernen hierarchischer assoziativer Beziehungen zwischen Modalitäten für die Generierung von Begleitgesten beim Sprechen

Die Generierung von körpereigenen und gestenbasierten Bewegungen, die sprachkonsistent sind, stellt ein langbestehendes Problem bei der Erstellung virtueller Avatare dar. Frühere Studien synthetisieren die Gelenkpositionen oft in einer ganzheitlichen Weise, wobei die Pose aller Gelenke gleichzeitig generiert wird. Ein solcher direkter Ansatz erweist sich jedoch als unzureichend, um fein abgestimmte Sprechgesten zu erzeugen. Eine zentrale Beobachtung ist, dass die hierarchische Semantik der Sprache und die hierarchische Struktur menschlicher Gesten sich naturgemäß auf mehreren Granularitätsstufen beschreiben lassen und miteinander verknüpft werden können. Um die reichhaltigen Verbindungen zwischen Sprachaudio und menschlichen Gesten optimal auszunutzen, schlagen wir einen neuen Ansatz namens Hierarchical Audio-to-Gesture (HA2G) für die Sprechgestengenerierung vor. Im HA2G extrahiert ein hierarchischer Audio-Lerner Audio-Repräsentationen über verschiedene semantische Granularitäten hinweg. Anschließend generiert ein hierarchischer Pose-Inferer die gesamte menschliche Pose schrittweise und hierarchisch. Um die Qualität der synthetisierten Gesten weiter zu verbessern, entwickeln wir eine kontrastive Lernstrategie basierend auf der Ausrichtung von Audio und Text zur Verbesserung der Audio-Repräsentationen. Umfangreiche Experimente und menschliche Bewertungen zeigen, dass die vorgeschlagene Methode realistische Sprechgesten erzeugt und die bisherigen Ansätze klar übertrifft. Projektseite: https://alvinliu0.github.io/projects/HA2G