2 个月前

音频字幕变换器

Mei, Xinhao ; Liu, Xubo ; Huang, Qiushi ; Plumbley, Mark D. ; Wang, Wenwu
音频字幕变换器
摘要

音频字幕生成旨在自动为音频片段生成自然语言描述。大多数字幕生成模型遵循编码器-解码器架构,其中解码器根据编码器提取的音频特征预测单词。卷积神经网络(CNNs)和循环神经网络(RNNs)通常被用作音频编码器。然而,CNN在建模音频信号中时间帧之间的时序关系方面存在局限性,而RNN在建模时间帧之间的长距离依赖关系方面也存在局限性。本文提出了一种基于编码器-解码器架构的全Transformer网络——音频字幕生成Transformer(ACT),该方法完全不使用卷积操作。所提出的方法在建模音频信号中的全局信息以及捕捉音频事件之间的时间关系方面具有更强的能力。我们在最大的公开可用音频字幕数据集AudioCaps上对我们的模型进行了评估,结果表明,该模型与其他最先进的方法相比具有竞争力的表现。