Samba-asr:構造化状態空間モデルを活用した最先端の音声認識

我々は、状態空間モデル(SSM)を基盤とし、新たなMambaアーキテクチャをエンコーダおよびデコーダの両方として用いる、最先端の自動音声認識(ASR)モデル「Samba ASR」を提案する。従来のTransformerベースのASRモデルが自己注意機構(self-attention)に依存して依存関係を捉えるのに対し、Samba ASRは効率的な状態空間ダイナミクスを用いて、局所的およびグローバルな時系列依存関係を同時に効果的にモデル化することにより、顕著な性能向上を達成している。Transformerの課題である入力長に対する二次的スケーリングと長距離依存関係の扱いの難しさを克服することで、Samba ASRは優れた精度と効率性を実現している。実験結果から、Samba ASRは各種標準ベンチマークにおいて既存のオープンソースなTransformerベースASRモデルを上回り、ASR分野における新たな最先端(SOTA)を確立している。公開ベンチマークデータセットにおける広範な評価では、単語誤り率(WER)において顕著な改善が確認され、低リソース環境下でも競争力ある性能を発揮している。さらに、Mambaアーキテクチャの計算効率とパラメータ最適化の優位性により、Samba ASRは多様なASRタスクに対応可能なスケーラブルかつ堅牢なソリューションであると評価できる。本研究の主な貢献は以下の通りである:- 音声系列処理において、Transformerモデルを上回るSSMの優位性を示す新しいSamba ASRアーキテクチャの提案。- 最先端の性能を実証する、公開ベンチマークを用いた包括的な評価。- 計算効率、ノイズに対するロバスト性、シーケンス一般化能力に関する分析。 本研究は、Mambaを用いたSSMが、Transformerに依存しない効率的かつ高精度なASRの代替手段として実現可能であることを示している。状態空間モデルの技術進展を活用することで、Samba ASRはASR性能の新たな基準を設定し、今後の研究に大きな影響を与えるものと期待される。