16日前

視覚誘導型自己教師学習による音声表現の学習

Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic

要約

近年、自己教師あり表現学習（self-supervised representation learning）は音声および視覚モダリティの両方において大きな研究関心を呼び寄せている。しかし、大多数の研究は特定のモダリティまたは特徴に限定されており、音声と視覚の両モダリティ間の相互作用を活用して自己教師あり表現を学習するという点については、極めて限られた研究にとどまっている。本研究では、音声視覚会話（audiovisual speech）の文脈において、視覚モダリティを用いた音声表現の学習フレームワークを提案する。具体的には、与えられた音声クリップに対応する静止画像をアニメーション化する生成型音声→視覚学習スキームを採用し、生成された動画が実際の会話セグメントの動画とできるだけ類似するように最適化する。このプロセスを通じて、音声エンコーダーは有用な発話表現を学習することができ、その性能は感情認識および音声認識タスクにおいて評価される。実験の結果、感情認識において最先端（state-of-the-art）の性能を達成し、音声認識においても競争力のある結果を示した。これは、視覚的監視（visual supervision）を用いた音声表現の学習が、従来ほとんど検討されていなかった新たな自己教師あり学習のアプローチとしての可能性を示している。本研究で提案する無監督音声特徴量は、ラベルなしの音声視覚会話データというほぼ無制限な学習データを活用でき、多岐にわたる有望な応用が期待される。