13 天前

基于多维边缘的音频事件关系图表示学习用于声学场景分类

Yuanbo Hou, Siyang Song, Chuang Yu, Yuxin Song, Wenwu Wang, Dick Botteldooren
基于多维边缘的音频事件关系图表示学习用于声学场景分类
摘要

现有的大多数基于深度学习的声景分类(Acoustic Scene Classification, ASC)方法直接利用频谱图提取的表征来识别目标声景。然而,这些方法往往忽视了声景中实际发生的音频事件,尽管这些事件蕴含着关键的语义信息。本文首次开展研究,探讨仅基于描述有限数量音频事件的特征,是否能够可靠地识别真实生活中的声景。为建模粗粒度声景与细粒度音频事件之间的特定任务关系,本文提出一种面向声景分类的事件关系图表示学习框架(Event Relational Graph Representation Learning, ERGL)。具体而言,ERGL从输入音频中学习声景的图表示,其中每个音频事件的嵌入作为图中的节点,而每对事件嵌入之间的关系线索则通过一个学习得到的多维边特征进行描述。在多音声景数据集上的实验表明,所提出的ERGL框架仅使用有限数量的音频事件嵌入,且无需任何数据增强,即可在ASC任务上取得具有竞争力的性能。该结果验证了所提ERGL框架的有效性,证明了基于事件关系图识别多样化声景的可行性。相关代码已开源,可访问我们的主页获取:https://github.com/Yuanbo2020/ERGL。

基于多维边缘的音频事件关系图表示学习用于声学场景分类 | 最新论文 | HyperAI超神经