Command Palette

Search for a command to run...

1 个月前

通过GRPO提升语音感知语言模型中的语音理解能力

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

通过GRPO提升语音感知语言模型中的语音理解能力

摘要

本文提出一种基于组相对策略优化(Group Relative Policy Optimization, GRPO)的方法,用于在开放式语音理解任务(如语音问答和自动语音翻译)上训练语音感知型大语言模型(Speech-Aware Large Language Models, SALLMs)。SALLMs在语音理解任务中已展现出卓越的性能。GRPO因其在大语言模型(LLMs)训练中的高效性而受到广泛关注,先前研究已探索其在SALLMs中的应用,主要集中在多项选择类任务。在此基础上,本文聚焦于更具生成性能力体现的开放式任务。我们采用以BLEU作为奖励信号的GRPO方法对SALLMs进行优化,并通过实证研究证明,该方法在多个关键指标上优于传统的监督微调(Supervised Fine-Tuning, SFT)策略。最后,我们探讨了在GRPO框架中引入离策略样本的潜力,为后续性能提升与深入研究指明了新的方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供