ROSE:マルチオブジェクティブ学習を用いた航空交通管制における認識指向型音声増強フレームワーク

航空管制(ATC)領域におけるラジオ音声エコーは、音声品質を低下させ、さらには自動音声認識(ASR)の精度に悪影響を及ぼす特定の現象である。本研究では、時系列領域において認識を指向した音声増強(Recognition-Oriented Speech Enhancement, ROSE)フレームワークを提案する。このフレームワークは、畳み込み型エンコーダデコーダベースのU-Net構造を採用し、ATC環境における即時適用が可能なプラグアンドプレイ型ツールとして機能する。また、ASRモデルの再トレーニングを必要とせず、音声認識性能の向上を実現する。具体的には、以下の3つの革新点を導入している。1)U-Netアーキテクチャにおいて、アテンションマスクを用いてエンコーダから共有特徴を抽出するアテンションベースのスキップ統合(Attention-Based Skip-Fusion, ABSF)モジュールを導入することで、階層的な特徴を効果的に統合することができる。2)情報量の多い特徴に注目できるように、二重並列なアテンションパスを備えたチャネルおよびシーケンスアテンション(Channel and Sequence Attention, CSAtt)モジュールを新たに設計。これにより、有効な特徴表現を強化するとともに、干渉ノイズを抑制することが可能となる。3)手作業で設計された特徴に基づき、ASR指向の最適化ターゲットを設定することで、ATC環境における認識性能の向上を図り、ロバストな特徴表現の学習を促進する。ROSEは、音声増強(SE)指向とASR指向の損失を統合し、二つのタスク間で共有される表現を最適化する多目的学習アプローチによって実装されている。実験結果から、ROSEはSEおよびASRの両タスクにおいて、他の最先端手法を顕著に上回ることが確認された。さらに、設計された実験により、本研究で提案する各構成要素の有効性が明確に裏付けられた。また、公開データセット上でも、提案手法が望ましい性能向上をもたらすことが示された。