STARSS22:音響イベントの空間時間アノテーション付き実環境の空間的記録データセット

本報告では、音イベントの局所化と検出を目的とした「Sony-TAu Realistic Spatial Soundscapes 2022(STARS22)」データセットについて述べる。このデータセットは、2つの異なる施設における多様な室内環境で収録された実空間音響シーンの空間的記録から構成されており、高解像度の球面マイクロフォンアレイを用いて収録されたものである。データは、1次Ambisonicsおよび四面体マイクロフォンアレイの2種類の4チャンネル形式で提供される。データセット内の音イベントは、13のターゲット音クラスに分類されており、人間によるラベル付けと光学追跡技術を組み合わせることで、時間的・空間的に正確にアノテーションされている。このデータセットは、DCASE2022音イベント局所化・検出チャレンジのTask 3における開発および評価用データセットとして用いられ、従来の合成空間音響シーンに基づいた前回までのバージョンと比較して、より現実的かつ新たな課題を提示している。本報告では、収録およびアノテーションプロセス、ターゲットクラスの定義と出現頻度、開発用および評価用データ分割の詳細など、データセットの仕様を詳述する。さらに、本チャレンジに併せて提供されるベースラインシステムについても紹介し、前回のバージョンとの主な相違点に焦点を当てる。具体的には、同一クラスの複数イベントが同時に発生する状況に対応するための「マルチ-ACCDOA(multi-Accelerated Convolutional Direction of Arrival)」表現の導入、およびマイクロフォンアレイ形式に対するより高精度な入力特徴量のサポートが挙げられる。ベースラインシステムの実験結果から、適切な学習戦略を採用すれば、実際の音響シーン記録においても妥当な検出および局所化性能が達成可能であることが示された。本データセットは、https://zenodo.org/record/6387880 にて公開されている。