6 个月前

音频和语音处理

Archontis Politis Kazuki Shimada Parthasaarathy Sudarsanam Sharath Adavanne Daniel Krause Yuichiro Koyama Naoya Takahashi Shusuke Takahashi Yuki Mitsufuji Tuomas Virtanen

摘要

本报告介绍了索尼-塔乌真实空间声景2022（Sony-TAu Realistic Spatial Soundscapes 2022，简称 STARS22）数据集，该数据集用于声音事件定位与检测任务。STARS22 数据集由两个不同场所内多种室内场景的真实空间声学记录组成，采用高分辨率球形麦克风阵列进行采集，并以两种四通道格式提供：一阶 Ambisonics 格式与四面体麦克风阵列格式。数据集中包含13类目标声音事件，其时间与空间信息通过人工标注结合光学追踪技术进行双重标注。该数据集作为 DCASE2022 声音事件定位与检测挑战赛中任务3（Task 3）的开发与评估数据集，相较于以往基于合成空间化声景录音的版本，引入了显著的新挑战。报告详细阐述了数据集的各项技术规格，包括录音与标注流程、目标类别及其分布情况，以及开发集与测试集的划分细节。此外，报告还介绍了随数据集一同发布的基准系统，重点说明其与以往迭代版本基准系统的差异：首次引入多ACCDOA（multi-ACCDOA）表示方法，以有效处理同一类别声音事件的多重同时发生情况；同时，增强了对麦克风阵列输入特征的支持，引入了性能更优的附加输入特征。基准系统实验结果表明，通过采用合适的训练策略，可在真实声景录音上实现较为理想的检测与定位性能。该数据集现已公开发布，可通过 https://zenodo.org/record/6387880 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Archontis Politis Kazuki Shimada Parthasaarathy Sudarsanam Sharath Adavanne Daniel Krause Yuichiro Koyama Naoya Takahashi Shusuke Takahashi Yuki Mitsufuji Tuomas Virtanen

摘要

本报告介绍了索尼-塔乌真实空间声景2022（Sony-TAu Realistic Spatial Soundscapes 2022，简称 STARS22）数据集，该数据集用于声音事件定位与检测任务。STARS22 数据集由两个不同场所内多种室内场景的真实空间声学记录组成，采用高分辨率球形麦克风阵列进行采集，并以两种四通道格式提供：一阶 Ambisonics 格式与四面体麦克风阵列格式。数据集中包含13类目标声音事件，其时间与空间信息通过人工标注结合光学追踪技术进行双重标注。该数据集作为 DCASE2022 声音事件定位与检测挑战赛中任务3（Task 3）的开发与评估数据集，相较于以往基于合成空间化声景录音的版本，引入了显著的新挑战。报告详细阐述了数据集的各项技术规格，包括录音与标注流程、目标类别及其分布情况，以及开发集与测试集的划分细节。此外，报告还介绍了随数据集一同发布的基准系统，重点说明其与以往迭代版本基准系统的差异：首次引入多ACCDOA（multi-ACCDOA）表示方法，以有效处理同一类别声音事件的多重同时发生情况；同时，增强了对麦克风阵列输入特征的支持，引入了性能更优的附加输入特征。基准系统实验结果表明，通过采用合适的训练策略，可在真实声景录音上实现较为理想的检测与定位性能。该数据集现已公开发布，可通过 https://zenodo.org/record/6387880 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供