17 天前

动作链:通过大语言模型实现忠实且多模态的问答

Zhenyu Pan, Haozheng Luo, Manling Li, Han Liu
动作链:通过大语言模型实现忠实且多模态的问答
摘要

我们提出了一种面向多模态与检索增强型问答(QA)的“动作链”(Chain-of-Action, CoA)框架。相较于现有文献,CoA有效解决了当前QA应用面临的两大核心挑战:(i)与实时或领域事实不符的虚假幻觉问题;(ii)在处理复合信息时推理能力薄弱的问题。本研究的核心贡献在于提出一种新颖的推理-检索机制,该机制通过系统性提示(systematic prompting)与预设动作,将复杂问题分解为一系列可执行的推理链。在方法论层面,我们设计了三种可适应不同领域的“即插即用”(Plug-and-Play)动作,用于从异构数据源中检索实时信息。此外,我们引入了一种多参考可信度评分(Multi-Reference Faith Score, MRFS),用以验证答案并解决答案间的冲突。实验方面,我们结合公开基准数据集与一个Web3领域的案例研究,充分验证了CoA相较于现有方法在性能上的优越性。