11 天前
STARSS22:包含声事件时空标注的真实场景空间录音数据集
Archontis Politis, Kazuki Shimada, Parthasaarathy Sudarsanam, Sharath Adavanne, Daniel Krause, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, Tuomas Virtanen

摘要
本报告介绍了索尼-塔乌真实空间声景2022(Sony-TAu Realistic Spatial Soundscapes 2022,简称 STARS22)数据集,该数据集用于声音事件定位与检测任务。STARS22 数据集由两个不同场所内多种室内场景的真实空间声学记录组成,采用高分辨率球形麦克风阵列进行采集,并以两种四通道格式提供:一阶 Ambisonics 格式与四面体麦克风阵列格式。数据集中包含13类目标声音事件,其时间与空间信息通过人工标注结合光学追踪技术进行双重标注。该数据集作为 DCASE2022 声音事件定位与检测挑战赛中任务3(Task 3)的开发与评估数据集,相较于以往基于合成空间化声景录音的版本,引入了显著的新挑战。报告详细阐述了数据集的各项技术规格,包括录音与标注流程、目标类别及其分布情况,以及开发集与测试集的划分细节。此外,报告还介绍了随数据集一同发布的基准系统,重点说明其与以往迭代版本基准系统的差异:首次引入多ACCDOA(multi-ACCDOA)表示方法,以有效处理同一类别声音事件的多重同时发生情况;同时,增强了对麦克风阵列输入特征的支持,引入了性能更优的附加输入特征。基准系统实验结果表明,通过采用合适的训练策略,可在真实声景录音上实现较为理想的检测与定位性能。该数据集现已公开发布,可通过 https://zenodo.org/record/6387880 获取。