vor 16 Tagen

Einheitliche Sprach- und Gestensynthese unter Verwendung von Flow Matching

Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, Éva Székely, Gustav Eje Henter

Abstract

Da Text-zu-Sprache-Technologien bei Lesetextaufgaben beachtliche Natürlichkeit erreicht haben, wächst das Interesse an der multimodalen Synthese verbalen und nonverbalen kommunikativen Verhaltens, wie beispielsweise spontaner Sprache und zugehöriger Körpergesten. In diesem Beitrag wird eine neuartige, einheitliche Architektur vorgestellt, die Sprachakustik und gelenkbasierter 3D-Gestenbewegung gleichzeitig aus Text ableitet und mit Hilfe von optimal-transport-basiertem bedingtem Flussmatching (OT-CFM) trainiert wird. Die vorgeschlagene Architektur ist einfacher als der aktuelle Stand der Technik, weist einen geringeren Speicherbedarf auf und kann die gemeinsame Verteilung von Sprache und Gesten erfassen, wodurch beide Modalitäten in einem einzigen Prozess generiert werden. Gleichzeitig ermöglicht das neue Trainingsverfahren eine deutlich bessere Synthesegüte in weitaus weniger Schritten (Netzwerk-Auswertungen) als zuvor. Subjektive Tests, sowohl ein- als auch multimodal, zeigen eine verbesserte Sprachnatürlichkeit, menschenähnliche Gesten und eine höhere Angemessenheit zwischen den Modalitäten im Vergleich zu bestehenden Benchmarks. Weitere Video-Beispiele und den Quellcode finden Sie unter https://shivammehta25.github.io/Match-TTSG/.