11 天前

RLHF-V:通过细粒度修正型人类反馈实现行为对齐以构建可信的多模态大语言模型

Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
RLHF-V:通过细粒度修正型人类反馈实现行为对齐以构建可信的多模态大语言模型
摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来在多模态理解、推理与交互方面展现出令人瞩目的能力。然而,现有MLLMs普遍面临严重的幻觉问题,即生成的文本与关联图像缺乏事实依据,导致模型输出不可信,难以在现实世界应用中(尤其是高风险场景)可靠使用。为应对这一挑战,我们提出RLHF-V,通过细粒度修正型人类反馈实现行为对齐,从而提升MLLM的可信度。具体而言,RLHF-V收集人类在文本片段层面针对幻觉现象的修正反馈,并在此基础上进行密集的直接偏好优化(dense direct preference optimization)。在五个基准测试中开展的全面实验(涵盖自动评估与人工评估)表明,RLHF-V能够显著提升MLLM的可信行为表现,同时具备出色的训练数据与计算效率。值得注意的是,仅使用1,400个标注样本,RLHF-V便将基础MLLM的幻觉率降低34.8%,显著优于基于10,000个标注样本训练的同期模型LLaVA-RLHF。最终模型在开源MLLM中达到了当前最先进的可信度水平,并在防止因过度泛化引发的幻觉方面,表现出优于GPT-4V的鲁棒性。相关代码、模型及数据已开源,访问地址为:https://github.com/RLHF-V/RLHF-V。

RLHF-V:通过细粒度修正型人类反馈实现行为对齐以构建可信的多模态大语言模型 | 最新论文 | HyperAI超神经