要約
本稿では、ドライバー支援システムにおける音声・視覚情報統合型会話認識(AVSR)のための研究手法を提示する。こうしたシステムは、安全上の理由から運転中のドライバーとの継続的なインタラクションを音声制御を通じて実現する必要がある。本研究では、堅牢なAVSRを目的として、独自の音声・視覚会話コマンド認識Transformer(AVCRFormer)を提案する。具体的には、(i) 音声および映像特徴行列の空間時系列融合に基づくマルチモーダル融合戦略、(ii) 複数エンコーダを備えた反復的モデル精緻化モジュールを用いた制御型Transformer、(iii) 複数デコーダに基づく分類器アンサンブル戦略を提案する。空間時系列融合戦略は、両モーダルの文脈情報を保持しつつ、時間的同期を実現する。反復的モデル精緻化モジュールは、音声と視覚データが会話認識精度に与える影響を活用することで、両者のギャップを埋めることを可能にする。提案する多予測戦略は、従来の単一予測戦略と比較して優れた性能を示し、多様な音声・視覚環境におけるモデルの適応性を実証している。提案するTransformerは、RUSAVICおよびLRWコーパスにおいて、それぞれ98.87%および98.81%という高い会話コマンド認識精度を達成した。本研究は、人間とコンピュータのインタラクションの進展に重要な意味を持つ。AVCRFormerの能力はAVSRにとどまらず、音声・視覚処理と人工知能の交差点における貴重な貢献をもたらすものである。