9 天前
通过优化音频编码的大型语言模型提升自动化音频描述性能
Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang

摘要
自动音频字幕生成(Automated Audio Captioning, AAC)是一项将音频内容以自然语言形式进行描述的音频到文本任务。近年来,随着大规模语言模型(Large Language Models, LLMs)的发展,以及音频编码器训练方法的不断优化,AAC性能的提升迎来了新的机遇。为此,本文从三个方面探索了AAC的性能增强策略:(1)采用通过一致集成蒸馏(Consistent Ensemble Distillation, CED)预训练的音频编码器,以提升声学标记(acoustic tokens)的表达效能,并利用查询变压器(Querying Transformer, Q-Former)弥合模态差异,同时实现声学标记的压缩;(2)研究使用参数量为70亿的Llama 2模型作为解码器所带来的优势;(3)引入另一个预训练的大规模语言模型,用于修正因训练数据不足及标注歧义所导致的文本错误。音频编码器与文本解码器均通过低秩适配(Low-Rank Adaptation, LoRA)进行优化。实验结果表明,上述各项改进均有效。所提出的方法在SPIDEr-FL指标上达到33.0分,优于DCASE 2023任务6A的优胜方案。