13日前

多次元エッジベース音響イベント関係グラフ表現学習による音響シーン分類

Yuanbo Hou, Siyang Song, Chuang Yu, Yuxin Song, Wenwu Wang, Dick Botteldooren

要約

現在の深層学習に基づく音響シーン分類（ASC）手法の多くは、スペクトログラムから抽出された表現を直接用いて対象のシーンを識別している。しかし、これらの手法は、シーン内で発生する音響イベント（audio events）にほとんど注目を払っておらず、それらが持つ重要な意味論的情報を無視している。本論文では、実生活における音響シーンが、限定的な数の音響イベントを記述する特徴のみに基づいて信頼性高く認識可能かどうかを初めて検証する研究を行う。粗粒度の音響シーンと細粒度の音響イベントとの間のタスク特有の関係をモデル化するため、本研究では音響シーン分類のためのイベント関係グラフ表現学習（Event Relational Graph Representation Learning; ERGL）フレームワークを提案する。具体的には、ERGLは入力音声から音響シーンのグラフ表現を学習する。このグラフにおいて、各音響イベントの埋め込み（embedding）をノードとして扱い、各ペアのイベント埋め込みから得られる関係性の手がかりを、学習された多次元エッジ特徴によって表現する。多音性音響シーンデータセット上での実験により、データ拡張を一切行わずに、限定的な数の音響イベント埋め込みのみを用いても、ERGLがASCにおいて競争力ある性能を達成することが示された。本研究で提案するERGLフレームワークの有効性は、イベント関係グラフに基づく多様な音響シーンの認識が実現可能であることを裏付けている。本研究のコードは、当研究室のホームページ（https://github.com/Yuanbo2020/ERGL）にて公開されている。