
要約
最近の研究では、音声・視覚同時分離のための融合モジュール設計において顕著な進展が見られている。しかしながら、これらの手法は主に音声と視覚特徴の単一時系列スケールにおけるマルチモーダル融合に焦点を当てており、選択的注意機構を導入していない点が、人間の脳の働きと著しく対照的である。この課題を解決するため、本研究では、効率的な音声・視覚特徴融合を実現するための注目機構を活用する新しいモデル「イントラ・インター注意ネットワーク(IIANet)」を提案する。IIANetは、イントラ注意(IntraA)ブロックとインタラ注意(InterA)ブロックの2種類の注意ブロックから構成されており、InterAブロックはIIANetの上部、中央部、下部に分散配置されている。人間の脳が異なる時系列スケールで関連する情報を選択的に注目する仕組みに強くインスパイアされた本モデルは、モダリティ固有の特徴を学習する能力を維持しつつ、音声・視覚特徴から異なる意味情報を抽出可能とする。LRS2、LRS3、VoxCeleb2の3つの標準的な音声・視覚分離ベンチマークにおいて実施された包括的な実験により、IIANetの有効性が実証された。本モデルは従来の最先端手法を上回る性能を達成しつつ、推論時間は同等に保っている。特に、高速版のIIANet(IIANet-fast)は、CTCNetのMACsのわずか7%であり、CPU上でCTCNetに比べて40%高速でありながら、より優れた分離品質を達成した。これにより、注目機構が効率的かつ効果的なマルチモーダル融合に大きな可能性を秘めていることが示された。