9日前

モバイルデバイスのセンサーを用いた音声視覚的発話およびジェスチャー認識

{Elena Ryumina, Denis Ivanko, Dmitry Ryumin}
要約

音声視覚的発話認識(Audio-Visual Speech Recognition: AVSR)は、音声がノイズによって損なわれる状況下でも信頼性の高い発話認識を実現する有望な手法の一つである。追加の視覚情報は、自動的唇読(lip-reading)およびジェスチャー認識に活用できる。手のジェスチャーは非言語的コミュニケーションの一種であり、現代のヒューマン・コンピュータ・インタラクション(HCI)システムにおいて極めて重要な役割を果たす。現在、スマートフォンなどのモバイルデバイスのセンサーによって音声と映像のモダリティは容易に取得可能である。しかし、自動音声視覚的発話およびジェスチャー認識のための即効性のあるソリューションは存在しない。本研究では、AVSR用とジェスチャー認識用の両方の深層ニューラルネットワークベースのモデルアーキテクチャを提案する。音声視覚的発話認識における主な新規性は、視覚的および音声的特徴量に対する微調整戦略の導入と、予測レベル、特徴レベル、モデルレベルの3つのモダリティ統合アプローチを統合したエンド・ツー・エンドモデルの提案にある。ジェスチャー認識における主な新規性は、唇の発話運動情報(lip articulation information)を考慮した独自の時空間特徴量のセットの導入にある。現時点で音声視覚的発話とジェスチャー認識を統合したタスクを対象とした公表済みデータセットは存在しないため、本研究では2つの大規模コーパス(LRWおよびAUTSL)を用いて評価を行った。その結果、両タスクにおいて既存手法を上回る性能を達成した。具体的には、LRWデータセットにおけるAVSRの認識精度は98.76%、AUTSLデータセットにおけるジェスチャー認識率は98.56%を達成した。これらの結果は、提案手法の高い性能を示すとともに、モバイルデバイスのセンサーを用いて音声視覚的発話およびジェスチャーを認識する可能性が根本的に存在することを示している。