Command Palette
Search for a command to run...
Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

摘要
本文提出一种基于组相对策略优化(Group Relative Policy Optimization, GRPO)的方法,用于在开放式语音理解任务(如语音问答和自动语音翻译)上训练语音感知型大语言模型(Speech-Aware Large Language Models, SALLMs)。SALLMs在语音理解任务中已展现出卓越的性能。GRPO因其在大语言模型(LLMs)训练中的高效性而受到广泛关注,先前研究已探索其在SALLMs中的应用,主要集中在多项选择类任务。在此基础上,本文聚焦于更具生成性能力体现的开放式任务。我们采用以BLEU作为奖励信号的GRPO方法对SALLMs进行优化,并通过实证研究证明,该方法在多个关键指标上优于传统的监督微调(Supervised Fine-Tuning, SFT)策略。最后,我们探讨了在GRPO框架中引入离策略样本的潜力,为后续性能提升与深入研究指明了新的方向。