18日前
意味を理解した報酬の体系:自由形式生成におけるオープンエンドR1トレーニング向け
Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

要約
オープンエンドの長文生成の評価は、良し悪しを明確に区別することが難しいため、挑戦的な課題となっています。既存の方法では、一貫性(coherence)、文体(style)、関連性(relevance)などの重要な側面が見落とされたり、事前学習データによって偏倚が生じたりすることが多く、オープンエンドの長文評価は未十分に研究されている問題です。このギャップを埋めるために、私たちは PrefBERT を提案します。これは、GRPO におけるオープンエンドの長文生成を評価し、良し悪しの出力に対して異なる報酬を与えることでその訓練を導くスコアリングモデルです。多様な長文スタイルとリッカート尺度で評価された品質を持つ2つのレスポンス評価データセットで訓練された PrefBERT は、従来の指標である ROUGE-L や BERTScore よりも優れた意味論的な報酬フィードバックを提供することで GRPO を効果的にサポートします。包括的な評価を通じて、LLM-as-a-judge(LLMによる判断)、人間の評価、定性的分析などを行い、PrefBERT が複数文や段落レベルのレスポンスで訓練された後でも、様々な長い文章において信頼性が維持され、GRPO が必要とする検証可能な報酬とよく一致することを示しています。人間による評価では、PrefBERT の報酬信号を使用してポリシーモデルを訓練すると、従来の指標を使用して訓練した場合よりも人間の好みによりよく適合するレスポンスが得られることを確認しました。私たちのコードは https://github.com/zli12321/long_form_rl で利用可能です。