6 个月前

Tianyu Yu Haoye Zhang Qiming Li Qixin Xu Yuan Yao Da Chen Xiaoman Lu Ganqu Cui Yunkai Dang Taiwen He

摘要

传统的幻觉抑制反馈学习方法依赖于耗时的人工标注或昂贵的专有模型，导致学术界缺乏关于如何基于开源多模态大语言模型（MLLMs）构建高质量反馈的系统性知识。本文提出一种全新的框架——RLAIF-V，该框架在完全开源的范式下实现多模态大语言模型的对齐。RLAIF-V从两个维度最大化挖掘开源MLLM的潜力：一是用于偏好学习的高质量反馈数据生成，二是推理阶段的自反馈引导机制，以实现模型规模的可扩展性。在六个基准测试上的大量实验结果表明，无论是自动评估还是人工评估，RLAIF-V均显著提升了模型在偏好学习与推理阶段的可信度。其中，RLAIF-V 7B模型将物体幻觉减少80.7%，整体幻觉降低33.7%。尤为突出的是，RLAIF-V 12B进一步揭示了开源MLLM具备强大的自对齐潜力——模型能够通过自我反馈进行学习，最终实现超越GPT-4V级别的可信度。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Tianyu Yu Haoye Zhang Qiming Li Qixin Xu Yuan Yao Da Chen Xiaoman Lu Ganqu Cui Yunkai Dang Taiwen He

摘要

传统的幻觉抑制反馈学习方法依赖于耗时的人工标注或昂贵的专有模型，导致学术界缺乏关于如何基于开源多模态大语言模型（MLLMs）构建高质量反馈的系统性知识。本文提出一种全新的框架——RLAIF-V，该框架在完全开源的范式下实现多模态大语言模型的对齐。RLAIF-V从两个维度最大化挖掘开源MLLM的潜力：一是用于偏好学习的高质量反馈数据生成，二是推理阶段的自反馈引导机制，以实现模型规模的可扩展性。在六个基准测试上的大量实验结果表明，无论是自动评估还是人工评估，RLAIF-V均显著提升了模型在偏好学习与推理阶段的可信度。其中，RLAIF-V 7B模型将物体幻觉减少80.7%，整体幻觉降低33.7%。尤为突出的是，RLAIF-V 12B进一步揭示了开源MLLM具备强大的自对齐潜力——模型能够通过自我反馈进行学习，最终实现超越GPT-4V级别的可信度。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供