Rhythmischer Gestikulator: rhythmikbewusste Co-Speech-Gesten-Synthese mit hierarchischen neuronalen Embeddings

Die automatische Synthese realistischer Co-Speech-Gesten ist eine zunehmend wichtige, jedoch herausfordernde Aufgabe bei der Entwicklung künstlicher verkörperte Agenten. Bisherige Systeme konzentrieren sich hauptsächlich auf die Gestengenerierung in end-to-end-Weise, was aufgrund der komplexen und feinen Harmonie zwischen Sprache und Gesten Schwierigkeiten bei der Extraktion klarer Rhythmusstrukturen und semantischer Inhalte verursacht. Wir präsentieren eine neuartige Methode zur Synthese von Co-Speech-Gesten, die überzeugende Ergebnisse sowohl hinsichtlich des Rhythmus als auch der Semantik erzielt. Für den Rhythmus verfügt unser System über eine robuste, rhythmusbasierte Segmentierungspipeline, die die zeitliche Kohärenz zwischen Sprechakt und Gesten explizit gewährleistet. Für die Gesten-Semantik entwickeln wir eine Mechanik, die es ermöglicht, sowohl niedrig- als auch hochdimensionale neuronale Embeddings von Sprache und Bewegung basierend auf sprachtheoretischen Ansätzen effektiv zu entkoppeln. Das hochdimensionale Embedding entspricht dabei der Semantik, während das niedrigdimensionale Embedding subtilen Variationen zuzuordnen ist. Schließlich etablieren wir eine Korrespondenz zwischen den hierarchischen Embeddings von Sprache und Bewegung, was eine rhythmus- und semantikbewusste Gestensynthese ermöglicht. Evaluierungen mit existierenden objektiven Metriken, einem neu vorgeschlagenen rhythmischen Metrik und menschlicher Rückmeldung zeigen, dass unsere Methode die derzeit besten Systeme deutlich übertrifft.