9 天前
SLAM-AAC:通过LLM实现的重述增强与CLAP-Refine提升音频字幕生成
Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, Xie Chen

摘要
自动音频字幕生成(Automated Audio Captioning, AAC)旨在为输入的音频信号生成自然流畅的文本描述。近年来,音频预训练模型与大规模语言模型(Large Language Models, LLMs)的快速发展显著提升了音频理解与文本推理能力,为AAC性能的进一步提升奠定了基础。本文提出SLAM-AAC框架,通过引入改写增强(paraphrasing augmentation)与基于CLAP的精炼机制(CLAP-Refine),充分利用LLMs的能力以进一步优化AAC性能。本方法首先采用自监督的EAT模型提取细粒度的音频表征,并通过轻量级线性层将这些表征与文本嵌入进行对齐。在生成阶段,采用LoRA适配器高效地微调caption生成用的LLM,显著降低计算开销。受机器翻译中回译(back-translation)方法的启发,我们在预训练阶段引入改写增强策略,对Clotho数据集进行数据扩充。该策略有效缓解了音频-文本配对样本稀缺的问题,并能从少量音频片段中生成更具多样性的字幕描述。在推理阶段,我们提出一种即插即用的CLAP-Refine策略,充分利用多路解码输出,类似于语音识别中的n-best重评分机制。通过CLAP模型计算音频与文本之间的语义相似度,从多个搜索路径生成的候选文本中筛选出最匹配输入音频的描述。实验结果表明,SLAM-AAC在Clotho V2和AudioCaps两个主流基准数据集上均取得了当前最优的性能,显著超越了以往主流模型,验证了所提方法的有效性与先进性。