2 个月前

使用来自人工智能反馈的强化学习调整大型多模态模型以适应视频

Daechul Ahn; Yura Choi; Youngjae Yu; Dongyeop Kang; Jonghyun Choi

摘要

近期大型语言模型（LLM）的发展对视频大型多模态模型（VLMM）的研发产生了重要影响。以往的VLMM方法包括使用指令调优数据集进行监督微调（SFT）、将LLM与视觉编码器集成以及添加额外的可学习模块。然而，视频和文本多模态对齐仍然面临挑战，主要原因是相比纯文本数据，多模态指令调优数据的数量和质量不足。为此，我们提出了一种新的对齐策略——利用多模态人工智能系统自我监督的强化学习方法（Reinforcement Learning from AI Feedback, RLAIF），该方法通过提供自偏好反馈来优化自身，并促进视频和文本模态的对齐。具体而言，我们提出了上下文感知奖励建模，在生成偏好反馈时提供详细的视频描述作为上下文，以丰富对视频内容的理解。在多种视频基准测试中表现出色，我们的多模态RLAIF方法（VLM-RLAIF）超越了现有的方法，包括SFT模型。我们将致力于开源代码、模型和数据集，以推动该领域的进一步研究。