HyperAI超神经

FusionAudio-1.2M:面向细粒度音频字幕生成的多模态上下文融合

Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
发布日期: 6/9/2025
FusionAudio-1.2M:面向细粒度音频字幕生成的多模态上下文融合
摘要

高质量、大规模的音频描述对于推进音频理解至关重要,然而当前的自动化方法生成的描述往往缺乏细粒度细节和上下文准确性,主要原因是这些方法依赖于有限的单模态或浅层多模态信息。受人类听觉感知启发,人类听觉感知能够巧妙地整合跨模态线索并进行复杂的听觉场景分析,我们提出了一种新颖的两阶段自动化流程。该流程首先利用专门的预训练模型提取多样化的上下文线索(例如,语音、音乐、一般声音以及相关视频中的视觉信息)。随后,一个大型语言模型(LLM)将这些丰富的多模态输入综合起来,生成详细且具有上下文意识的音频描述。本研究的主要贡献包括:(1) 提出了一种可扩展的方法用于细粒度音频描述生成;(2) FusionAudio,一个新的大规模数据集,包含120万条详细的音频描述和600万个问答对;(3) 使用FusionAudio开发了增强型音频模型,特别是基于CLAP的音频编码器,在音频-文本对齐和指令跟随方面表现出色。本文为复杂音频环境的更细致和准确的自动化理解铺平了道路。代码和数据可在 https://github.com/satsuki2486441738/FusionAudio 获取。