2ヶ月前

SSAMBA: 自己監督型オーディオ表現学習におけるマンバ状態空間モデル

Siavash Shams; Sukru Samet Dindar; Xilin Jiang; Nima Mesgarani
SSAMBA: 自己監督型オーディオ表現学習におけるマンバ状態空間モデル
要約

トランスフォーマーは、その強力なモデリング能力により、音響表現学習を含む様々なタスクで深層学習を革命化しました。しかし、GPUメモリの使用量と計算推論時間において二次的な複雑さを持つことが多く、効率性に影響を与えています。最近、マンバ(Mamba)のような状態空間モデル(SSMs)が有望な代替手段として登場し、これらの複雑さを回避することでより効率的なアプローチを提供しています。これらの利点に基づき、本研究では音響タスクにおけるSSMベースのモデルの可能性を探ります。本論文では、Self-Supervised Audio Mamba (SSAMBA) を紹介します。これは音響表現学習のための最初の自己監督型、アテンションなし、そしてSSMベースのモデルです。SSAMBAは双方向マンバを利用することで複雑な音響パターンを効果的に捉えます。また、判別的および生成的目標を最適化する自己監督事前学習フレームワークを取り入れることで、大規模かつラベルなしデータセットから堅牢な音響表現を学習させることが可能となります。我々はSSAMBAを音響分類、キーワード検出、話者識別などの様々なタスクで評価しました。結果は、SSAMBAがSelf-Supervised Audio Spectrogram Transformer (SSAST) よりもほとんどのタスクで優れた性能を示していることを示しています。特に、入力トークンサイズが22kの小さなモデルサイズにおいて、SSAMBAはバッチ推論速度が約92.7%高速であり、メモリ効率も約95.4%高いという特徴があります。これらの効率性の向上と優れた性能は、SSAMBAのアーキテクチャ革新の有効性を強調しており、幅広い音響処理アプリケーションでの採用が魅力的であることを示唆しています。

SSAMBA: 自己監督型オーディオ表現学習におけるマンバ状態空間モデル | 最新論文 | HyperAI超神経