6 个月前

Seongyun Lee Sue Hyun Park Yongrae Jo Minjoon Seo

摘要

大型多模态模型普遍存在多模态幻觉问题，即模型生成的回答与给定的视觉信息不一致，出现错误。近期研究推测，多模态幻觉的一个重要原因在于视觉编码器未能准确地将语义信息锚定在图像上。为缓解这一问题，我们提出一种新颖的方法，利用自反馈作为视觉线索。基于该方法，我们构建了Volcano——一种由自反馈引导的多模态修订模型。Volcano能够根据提供的视觉信息，对初始回答生成自然语言形式的反馈，并利用该反馈对初始回答进行自我修正。实验结果表明，Volcano有效降低了多模态幻觉现象，在MMHal-Bench、POPE和GAVIE等多个基准测试中达到当前最优性能；同时，其在通用多模态能力方面也表现优异，超越了此前的先进模型，在MM-Vet和MMBench上取得了更好结果。通过定性分析，我们发现Volcano生成的反馈相较于初始回答具有更强的图像锚定性，表明该模型可通过反馈生成过程获取更丰富的视觉信息，从而实现自我纠错式的幻觉修正。我们已将模型、数据及代码公开发布于：https://github.com/kaistAI/Volcano

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Seongyun Lee Sue Hyun Park Yongrae Jo Minjoon Seo

摘要

大型多模态模型普遍存在多模态幻觉问题，即模型生成的回答与给定的视觉信息不一致，出现错误。近期研究推测，多模态幻觉的一个重要原因在于视觉编码器未能准确地将语义信息锚定在图像上。为缓解这一问题，我们提出一种新颖的方法，利用自反馈作为视觉线索。基于该方法，我们构建了Volcano——一种由自反馈引导的多模态修订模型。Volcano能够根据提供的视觉信息，对初始回答生成自然语言形式的反馈，并利用该反馈对初始回答进行自我修正。实验结果表明，Volcano有效降低了多模态幻觉现象，在MMHal-Bench、POPE和GAVIE等多个基准测试中达到当前最优性能；同时，其在通用多模态能力方面也表现优异，超越了此前的先进模型，在MM-Vet和MMBench上取得了更好结果。通过定性分析，我们发现Volcano生成的反馈相较于初始回答具有更强的图像锚定性，表明该模型可通过反馈生成过程获取更丰富的视觉信息，从而实现自我纠错式的幻觉修正。我们已将模型、数据及代码公开发布于：https://github.com/kaistAI/Volcano

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

火山：通过自反馈引导的修订缓解多模态幻觉 | 论文 | HyperAI超神经