2ヶ月前

LLMとテキストクエリ分離を活用したノイズに強いサウンドイベント検出

Yin, Han ; Xiao, Yang ; Bai, Jisheng ; Das, Rohan Kumar
LLMとテキストクエリ分離を活用したノイズに強いサウンドイベント検出
要約

音響イベント検出(SED)は、重複する音が目標のイベントを隠してしまう騒音環境において挑戦的な課題となっています。言語クエリ型オーディオソース分離(LASS)は、騒音のクリップから目標の音響イベントを分離することを目指しています。しかし、正確な目標音が不明な場合、特に騒音が多いテストセットでは、この手法が失敗しやすく、性能が低下する可能性があります。この問題に対処するために、大規模言語モデル(LLM)の能力を活用して音響データを分析・要約します。LLMを使用して特定のノイスタイプを識別・選択することで、ノイズに強い微調整用のノイズ拡張方法を実装しました。微調整されたモデルは、LASSモデルへのテキストクエリとしてクリップごとのイベント予測を行うために使用されます。本研究では、提案した手法が騒音環境におけるSEDの性能向上に寄与することを示しています。本研究は、ノイズに強いSEDでのLLMの初期応用例であり、SEDにおける重複イベント処理の有望な方向性を示唆しています。コードと事前学習済みモデルは以下のURLで公開されています: https://github.com/apple-yinhan/Noise-robust-SED。以上が翻訳となります。

LLMとテキストクエリ分離を活用したノイズに強いサウンドイベント検出 | 最新論文 | HyperAI超神経