8 个月前

摘要

本文重点关注在由丰富而复杂的动态音视频组件构成的场景中回答问题所面临的挑战。尽管现有的多模态大语言模型（MLLMs）能够对音视频内容作出响应，但这些响应有时存在模糊性，无法准确描述特定的音视频事件。为了解决这一局限性，我们引入了CAT模型，该模型通过以下三种方式增强MLLM：1) 除了直接连接音频和视频外，我们设计了一个线索聚合器，用于在动态音视频场景中聚合与问题相关的信息线索，以丰富大语言模型所需的详细知识。2) CAT在一个混合多模态数据集上进行训练，从而可以直接应用于音视频场景。值得注意的是，我们收集了一个名为AVinstruct的音视频联合指令数据集，进一步增强了CAT建模跨语义关联的能力。3) 我们提出了一种人工智能辅助的模糊意识直接偏好优化策略（AI-assisted ambiguity-aware direct preference optimization），专门用于重新训练模型以偏好非模糊响应，并提高其定位特定音视频对象的能力。大量的实验结果表明，CAT在多模态任务中优于现有方法，特别是在音视频问答（AVQA）任务中表现突出。代码和收集到的指令已发布在https://github.com/rikeilong/Bay-CAT。

源 PDF