HyperAIHyperAI

Command Palette

Search for a command to run...

使用来自人工智能反馈的强化学习调整大型多模态模型以适应视频

Daechul Ahn Yura Choi Youngjae Yu Dongyeop Kang Jonghyun Choi

摘要

近期大型语言模型(LLM)的发展对视频大型多模态模型(VLMM)的研发产生了重要影响。以往的VLMM方法包括使用指令调优数据集进行监督微调(SFT)、将LLM与视觉编码器集成以及添加额外的可学习模块。然而,视频和文本多模态对齐仍然面临挑战,主要原因是相比纯文本数据,多模态指令调优数据的数量和质量不足。为此,我们提出了一种新的对齐策略——利用多模态人工智能系统自我监督的强化学习方法(Reinforcement Learning from AI Feedback, RLAIF),该方法通过提供自偏好反馈来优化自身,并促进视频和文本模态的对齐。具体而言,我们提出了上下文感知奖励建模,在生成偏好反馈时提供详细的视频描述作为上下文,以丰富对视频内容的理解。在多种视频基准测试中表现出色,我们的多模态RLAIF方法(VLM-RLAIF)超越了现有的方法,包括SFT模型。我们将致力于开源代码、模型和数据集,以推动该领域的进一步研究。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供