HyperAIHyperAI
vor 2 Monaten

Das Lernen individueller Stile von Konversationsgesten

Shiry Ginosar; Amir Bar; Gefen Kohavi; Caroline Chan; Andrew Owens; Jitendra Malik
Das Lernen individueller Stile von Konversationsgesten
Abstract

Menschliche Sprache wird häufig von Hand- und Armbewegungen begleitet. Ausgehend von einer audiomäßigen Spracheingabe generieren wir plausiblen Gesten, die dem Klang entsprechen. Genauer gesagt führen wir eine multimodale Übersetzung von der "im Wild" aufgezeichneten Monologsprache eines einzelnen Sprechers zu deren Hand- und Armbewegungen durch. Wir trainieren unser Modell anhand von unbeschrifteten Videos, für die wir nur geräuschbehaftete Pseudo-Ground-Truth-Daten aus einem automatischen Pose-Erkennungssystem haben. Unser vorgeschlagenes Modell erzielt in quantitativen Vergleichen deutlich bessere Ergebnisse als die Baseline-Methoden. Um die Forschung zur computergestützten Erfassung des Zusammenhangs zwischen Gestik und Sprache zu fördern, veröffentlichen wir einen umfangreichen Videodatensatz mit personenspezifischen Gesten. Die Projektwebsite mit Video, Code und Daten ist unter http://people.eecs.berkeley.edu/~shiry/speech2gesture zu finden.