1 个月前

通过GRPO提升语音感知语言模型中的语音理解能力

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

摘要

本文提出一种基于组相对策略优化（Group Relative Policy Optimization, GRPO）的方法，用于在开放式语音理解任务（如语音问答和自动语音翻译）上训练语音感知型大语言模型（Speech-Aware Large Language Models, SALLMs）。SALLMs在语音理解任务中已展现出卓越的性能。GRPO因其在大语言模型（LLMs）训练中的高效性而受到广泛关注，先前研究已探索其在SALLMs中的应用，主要集中在多项选择类任务。在此基础上，本文聚焦于更具生成性能力体现的开放式任务。我们采用以BLEU作为奖励信号的GRPO方法对SALLMs进行优化，并通过实证研究证明，该方法在多个关键指标上优于传统的监督微调（Supervised Fine-Tuning, SFT）策略。最后，我们探讨了在GRPO框架中引入离策略样本的潜力，为后续性能提升与深入研究指明了新的方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

通过GRPO提升语音感知语言模型中的语音理解能力

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

摘要

用 AI 构建 AI

Hyper Newsletters