要約
唇読み(lipreading)は、音声・視覚統合型話者認識における重要な要素である。しかし、従来の唇読み手法では、唇全体を一つの単位としてモデル化する傾向にあり、唇の各部位が口の異なる特徴に注目していること、および全体モデルが個々の部位を完璧に再現できないという問題を無視している。さらに、全体的な唇に基づく特徴量は話者によって大きく変動するため、学習データベースには可能な限り多くの話者を含める必要がある。本研究では、全体的な唇モデルと唇の個別部位との不一致、およびモデルが学習データ内の話者に過度に依存する問題に対処するため、部位別唇読み(Part-based Lipreading, PBL)手法を提案する。PBLは、唇を部分的にモデル化し、それらを統合的に予測する。具体的には、畳み込み特徴に対して均一な分割戦略を適用し、複数の部位レベルのサブ結果を生成した後、最終的な予測に統合する。大規模な公開データセット(LRW)およびその一部(p-LRW、65語)を用いた実験により、ロボットの作業現場における段階的指示のシナリオを模擬した。PBLの単語認識精度は、LRWで82.8%、p-LRWで88.9%を達成した。最終的に、PBLを活用したエンド・ツー・エンド型音声・視覚統合話者認識システムを構築し、LRWデータセット上で98.3%の単語認識精度を達成した。