15日前

JiTTER:自己教師付き音響イベント検出のためのジグソーテンポラルトランスフォーマー

Hyeonuk Nam, Yong-Hwa Park
JiTTER:自己教師付き音響イベント検出のためのジグソーテンポラルトランスフォーマー
要約

音響イベント検出(Sound Event Detection: SED)は、自己教師学習(Self-Supervised Learning: SSL)アプローチの進展により著しく進展を遂げており、特にマスクドオーディオトランスフォーマーによるSED(MAT-SED)は、欠落した音声セグメントの再構成を目的としたマスクブロック予測を活用している。しかし、この手法はグローバルな依存関係を捉える点で有効である一方で、瞬時の音響イベントを破壊する傾向があり、時間的順序の明示的制約が欠如しているため、細粒度なイベント境界検出には適さないという課題を抱えている。この問題を解決するために、本研究では、トランスフォーマーに基づくSEDにおける時間的モデリングを強化するためのSSLフレームワーク「JiTTER(Jigsaw Temporal Transformer for Event Reconstruction)」を提案する。JiTTERは、音声シーケンスをブロックレベルおよびフレームレベルの両方でランダムにシャッフルする階層的時間シャッフル再構成戦略を導入することで、モデルが正しい時間的順序を再構成するよう強制する。この事前学習目的は、モデルがグローバルなイベント構造と細粒度な瞬時的特徴の両方を学習する能力を高め、急激な発生・終了を示すイベントの検出性能を向上させる。さらに、ブロックシャッフルの過程においてノイズを注入する手法を導入することで、微小な摂動をもたらす機構を提供し、特徴学習の正則化を促進し、モデルのロバスト性を向上させる。DESEDデータセットにおける実験結果から、JiTTERはMAT-SEDを上回り、PSDS(Per-Segment Detection Score)において5.89%の改善を達成した。これは、SSLに基づくSEDにおいて、単なるマスク予測ではなく、構造的な時間的再構成タスクがより効果的な事前学習パラダイムであることを示している。

JiTTER:自己教師付き音響イベント検出のためのジグソーテンポラルトランスフォーマー | 最新論文 | HyperAI超神経