15日前

SSLAM:複音的サウンドスケープにおける自己教師付きモデルの性能向上のための音声ミキシング手法

{Philip J B Jackson, Muhammad Awais, Armin Mustafa, Sara Atito, Tony Alex}
要約

自己教師付き事前学習音声ネットワークは、特にマルチモーダル大規模言語モデルにおいて広く採用されており、実世界のシステムにおいて重要な役割を果たしている。これらのネットワークは、自己教師付き事前学習により実世界の音声処理に十分な能力が備わっていると仮定され、多くの場合、固定状態(frozen state)で使用される。しかし、依然として重要な課題が残っている。実世界の音声は通常、複数の音源が重なり合う多音源(polyphonic)であり、非常に複雑な構造を持つが、これらのモデルが実際にそのような条件下でどれほど優れた性能を発揮するのかは不明である。現行の音声自己教師付き学習(SSL)手法は、主に単音源(monophonic)の音声、たとえば環境音や話声を含むデータセット上で評価されている。その結果、SSLモデルが自然な状況で一般的に見られる多音源音声にどれだけ一般化できるかについては、十分に検証されていない。この制限は、SSLモデルがより現実的な音声環境において実用的にどれだけ堅牢(robust)であるかについて懸念を呈するものである。このギャップを埋めるために、本研究では「音声混合物からの自己教師付き学習(Self-Supervised Learning from Audio Mixtures, SSLAM)」という、音声SSL研究における新たなアプローチを提案する。SSLAMは、多音源データからの学習能力を向上させつつ、単音源データに対する優れた性能を維持することを目的として設計されている。我々は、主に単音源データで構成される標準的な音声SSLベンチマークデータセット上でSSLAMを徹底的に評価し、高品質で公開されている複数の多音源データセットを用いて、最先端(SOTA)手法と包括的な比較分析を行った。その結果、SSLAMは多音源音声においてモデル性能を向上させるだけでなく、標準的な音声SSLベンチマークでも同等またはそれ以上の性能を維持・超過した。特に、AudioSet-2M(AS-2M)では最大3.9%の性能向上を達成し、平均平均精度(mAP)を50.2にまで改善した。多音源データセットでは、線形評価およびファインチューニングの両設定において、最大9.1%(mAP)の性能向上を記録し、新たなSOTAを確立した。これらの結果は、SSLAMが多音源と単音源の両方の音響環境において有効であることを示しており、音声SSLモデルの性能を著しく向上させる可能性を示している。

SSLAM:複音的サウンドスケープにおける自己教師付きモデルの性能向上のための音声ミキシング手法 | 最新論文 | HyperAI超神経