17 天前

Speechformer:在直接语音翻译中减少信息丢失

Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi
Speechformer:在直接语音翻译中减少信息丢失
摘要

基于Transformer的模型在多个研究领域中取得了最先进的性能,尤其在语音翻译任务中备受关注。然而,Transformer模型的计算复杂度与输入序列长度呈二次关系,这使得其直接应用于音频信号时面临挑战,因为音频信号通常以长序列形式表示。当前的解决方案通常依赖于对原始音频特征进行固定采样以实现初步的次优压缩,导致潜在的有用语言信息无法被网络高层有效获取。为解决这一问题,我们提出了Speechformer架构,该架构通过降低注意力层中的内存占用,避免了初始的有损压缩,并基于更具语言学意义的判据,在更高层次上聚合信息。在三个语言对(en→de/es/nl)上的实验表明,该方法具有显著有效性:在标准的MuST-C语料库上,BLEU得分最高提升0.8;在低资源场景下,BLEU得分最高提升达4.0。

Speechformer:在直接语音翻译中减少信息丢失 | 最新论文 | HyperAI超神经