3 个月前

多模态表征

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

摘要

在本研究中，我们揭示了当前主流的视觉语言大模型（LVLM）架构对语言模态存在的固有偏差，这一现象主要源于将视觉嵌入简单拼接至输入文本序列的普遍做法。为解决该问题，我们提出一种简单而有效的方法：通过融合平均池化后的视觉特征来优化文本嵌入。实验表明，该方法显著提升了模型的视觉定位能力，并在多个标准基准上大幅减少了幻觉现象。尽管平均池化提供了一种简单、鲁棒且高效融合视觉信息的手段，我们相信，更复杂的融合策略有望进一步提升视觉定位效果与跨模态对齐能力。鉴于本研究的核心目标在于揭示模态失衡问题及其对幻觉生成的影响，并验证通过引入视觉信息优化文本嵌入可有效缓解该问题，因此，对先进融合策略的深入探索将留待未来工作开展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

多模态表征

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

摘要

在本研究中，我们揭示了当前主流的视觉语言大模型（LVLM）架构对语言模态存在的固有偏差，这一现象主要源于将视觉嵌入简单拼接至输入文本序列的普遍做法。为解决该问题，我们提出一种简单而有效的方法：通过融合平均池化后的视觉特征来优化文本嵌入。实验表明，该方法显著提升了模型的视觉定位能力，并在多个标准基准上大幅减少了幻觉现象。尽管平均池化提供了一种简单、鲁棒且高效融合视觉信息的手段，我们相信，更复杂的融合策略有望进一步提升视觉定位效果与跨模态对齐能力。鉴于本研究的核心目标在于揭示模态失衡问题及其对幻觉生成的影响，并验证通过引入视觉信息优化文本嵌入可有效缓解该问题，因此，对先进融合策略的深入探索将留待未来工作开展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供