2 个月前

使用来自人工智能反馈的强化学习调整大型多模态模型以适应视频

Daechul Ahn; Yura Choi; Youngjae Yu; Dongyeop Kang; Jonghyun Choi
使用来自人工智能反馈的强化学习调整大型多模态模型以适应视频
摘要

近期大型语言模型(LLM)的发展对视频大型多模态模型(VLMM)的研发产生了重要影响。以往的VLMM方法包括使用指令调优数据集进行监督微调(SFT)、将LLM与视觉编码器集成以及添加额外的可学习模块。然而,视频和文本多模态对齐仍然面临挑战,主要原因是相比纯文本数据,多模态指令调优数据的数量和质量不足。为此,我们提出了一种新的对齐策略——利用多模态人工智能系统自我监督的强化学习方法(Reinforcement Learning from AI Feedback, RLAIF),该方法通过提供自偏好反馈来优化自身,并促进视频和文本模态的对齐。具体而言,我们提出了上下文感知奖励建模,在生成偏好反馈时提供详细的视频描述作为上下文,以丰富对视频内容的理解。在多种视频基准测试中表现出色,我们的多模态RLAIF方法(VLM-RLAIF)超越了现有的方法,包括SFT模型。我们将致力于开源代码、模型和数据集,以推动该领域的进一步研究。

使用来自人工智能反馈的强化学习调整大型多模态模型以适应视频 | 最新论文 | HyperAI超神经