9 天前

SLAM-AAC：通过LLM实现的重述增强与CLAP-Refine提升音频字幕生成

Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, Xie Chen

摘要

自动音频字幕生成（Automated Audio Captioning, AAC）旨在为输入的音频信号生成自然流畅的文本描述。近年来，音频预训练模型与大规模语言模型（Large Language Models, LLMs）的快速发展显著提升了音频理解与文本推理能力，为AAC性能的进一步提升奠定了基础。本文提出SLAM-AAC框架，通过引入改写增强（paraphrasing augmentation）与基于CLAP的精炼机制（CLAP-Refine），充分利用LLMs的能力以进一步优化AAC性能。本方法首先采用自监督的EAT模型提取细粒度的音频表征，并通过轻量级线性层将这些表征与文本嵌入进行对齐。在生成阶段，采用LoRA适配器高效地微调caption生成用的LLM，显著降低计算开销。受机器翻译中回译（back-translation）方法的启发，我们在预训练阶段引入改写增强策略，对Clotho数据集进行数据扩充。该策略有效缓解了音频-文本配对样本稀缺的问题，并能从少量音频片段中生成更具多样性的字幕描述。在推理阶段，我们提出一种即插即用的CLAP-Refine策略，充分利用多路解码输出，类似于语音识别中的n-best重评分机制。通过CLAP模型计算音频与文本之间的语义相似度，从多个搜索路径生成的候选文本中筛选出最匹配输入音频的描述。实验结果表明，SLAM-AAC在Clotho V2和AudioCaps两个主流基准数据集上均取得了当前最优的性能，显著超越了以往主流模型，验证了所提方法的有效性与先进性。