HyperAIHyperAI

Command Palette

Search for a command to run...

Das Lernen individueller Stile von Konversationsgesten

Shiry Ginosar Amir Bar Gefen Kohavi Caroline Chan Andrew Owens Jitendra Malik

Zusammenfassung

Menschliche Sprache wird häufig von Hand- und Armbewegungen begleitet. Ausgehend von einer audiomäßigen Spracheingabe generieren wir plausiblen Gesten, die dem Klang entsprechen. Genauer gesagt führen wir eine multimodale Übersetzung von der "im Wild" aufgezeichneten Monologsprache eines einzelnen Sprechers zu deren Hand- und Armbewegungen durch. Wir trainieren unser Modell anhand von unbeschrifteten Videos, für die wir nur geräuschbehaftete Pseudo-Ground-Truth-Daten aus einem automatischen Pose-Erkennungssystem haben. Unser vorgeschlagenes Modell erzielt in quantitativen Vergleichen deutlich bessere Ergebnisse als die Baseline-Methoden. Um die Forschung zur computergestützten Erfassung des Zusammenhangs zwischen Gestik und Sprache zu fördern, veröffentlichen wir einen umfangreichen Videodatensatz mit personenspezifischen Gesten. Die Projektwebsite mit Video, Code und Daten ist unter http://people.eecs.berkeley.edu/~shiry/speech2gesture zu finden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp