17日前

双方向同期融合を用いたリップグラフ支援型音声視覚話者認識

{Bing Yang, Zhan Chen, Hong Liu}
双方向同期融合を用いたリップグラフ支援型音声視覚話者認識
要約

現在の研究では、音声視覚語音認識(AVSR)において、代表的な視覚特徴の抽出と音声・視覚モダリティの効率的な統合が極めて重要であることが示されているが、これらの課題は依然として困難である。本研究では、双方向同期融合を用いたリップグラフ支援型AVSR手法を提案する。まず、画像ブランチとグラフブランチを組み合わせたハイブリッド視覚ストリームにより、判別力のある視覚特徴を抽出する。特に、リップグラフはリップのキーポイント間の自然かつ動的な接続関係を活用してリップ形状をモデル化し、その時間的変化はグラフ畳み込みネットワーク(GCN)と双方向ゲート付き再帰ユニット(Bi-GRU)を用いて捉える。次に、アテンションベースの双方向同期融合により、ハイブリッド視覚ストリームと音声ストリームを統合することで、両モダリティ間の非同期性を解消しつつ、双方向の情報連携を可能にする。LRW-BBCデータセットにおける実験結果から、本手法はクリーン環境およびノイズ環境の両方において、エンドツーエンドAVSRベースライン手法を上回ることを確認した。