HyperAIHyperAI

Command Palette

Search for a command to run...

Einheitliche Sprach- und Gestensynthese unter Verwendung von Flow Matching

Shivam Mehta Ruibo Tu Simon Alexanderson Jonas Beskow Éva Székely Gustav Eje Henter

Zusammenfassung

Da Text-zu-Sprache-Technologien bei Lesetextaufgaben beachtliche Natürlichkeit erreicht haben, wächst das Interesse an der multimodalen Synthese verbalen und nonverbalen kommunikativen Verhaltens, wie beispielsweise spontaner Sprache und zugehöriger Körpergesten. In diesem Beitrag wird eine neuartige, einheitliche Architektur vorgestellt, die Sprachakustik und gelenkbasierter 3D-Gestenbewegung gleichzeitig aus Text ableitet und mit Hilfe von optimal-transport-basiertem bedingtem Flussmatching (OT-CFM) trainiert wird. Die vorgeschlagene Architektur ist einfacher als der aktuelle Stand der Technik, weist einen geringeren Speicherbedarf auf und kann die gemeinsame Verteilung von Sprache und Gesten erfassen, wodurch beide Modalitäten in einem einzigen Prozess generiert werden. Gleichzeitig ermöglicht das neue Trainingsverfahren eine deutlich bessere Synthesegüte in weitaus weniger Schritten (Netzwerk-Auswertungen) als zuvor. Subjektive Tests, sowohl ein- als auch multimodal, zeigen eine verbesserte Sprachnatürlichkeit, menschenähnliche Gesten und eine höhere Angemessenheit zwischen den Modalitäten im Vergleich zu bestehenden Benchmarks. Weitere Video-Beispiele und den Quellcode finden Sie unter https://shivammehta25.github.io/Match-TTSG/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Einheitliche Sprach- und Gestensynthese unter Verwendung von Flow Matching | Paper | HyperAI