2ヶ月前

個々の会話ジェスチャーのスタイルを学ぶ

Shiry Ginosar; Amir Bar; Gefen Kohavi; Caroline Chan; Andrew Owens; Jitendra Malik

要約

人間の会話はしばしば手や腕のジェスチャーを伴います。本研究では、音声入力に基づいてその音に適したジェスチャーを生成します。具体的には、「自然環境下」で収録された単一話者のモノローグ音声から、その人の手と腕の動きをクローモーダル翻訳によって生成します。当該モデルは、ラベル付けされていないビデオデータを使用し、自動姿勢検出システムから得られるノイジーな疑似正解データのみで学習を行います。提案したモデルは定量的な比較においてベースライン手法を大幅に上回る性能を示しています。ジェスチャーと音声の関係性に対する計算的な理解を得るための研究を支援する目的で、大規模な個人特異的ジェスチャービデオデータセットを公開しています。プロジェクトウェブサイト（http://people.eecs.berkeley.edu/~shiry/speech2gesture）では、ビデオ、コード、データにアクセスできます。