Command Palette
Search for a command to run...
One Token to Fool LLM-as-a-Judge
一つのトークンでLLMジャッジを欺く
One Token to Fool LLM-as-a-Judge 一つのトークンでLLMジャッジを欺く
Yulai Zhao Haolin Liu Dian Yu S. Y. Kung Haitao Mi Dong Yu
概要
生成報酬モデル(LLM-as-judgesとも呼ばれる)は、大規模言語モデル(LLM)を使用して回答の質を評価するもので、検証可能な報酬を伴う強化学習(RLVR)においてますます採用されるようになっています。特に自由形式の出力を含む複雑な推論タスクでは、堅固なルールベースの指標よりも優れていることがしばしば示されています。このパラダイムでは、通常、LLMに候補の回答と正解の基準を比較し、正解であるかどうかを示す二値の報酬を割り当てるように指示されます。しかし、この比較タスクが表面的に単純であるように見えても、我々は生成報酬モデルが浅い操作に対して驚くべき脆弱性を持つことを発見しました。例えば、「:」や「.」などの非単語シンボルや、「思考過程:」や「問題を段階的に解決しましょう」といった推論開始フレーズがしばしば誤った正解報酬につながることがあります。我々はこの弱点がLLM、データセット、プロンプト形式にわたって広範に存在することを実証し、生成報酬モデルに依存する拒否サンプリング、嗜好最適化、およびRLVRなどの主要アルゴリズムパラダイムにとって深刻な脅威であることを示しています。この問題に対処するために、我々は単純ながら効果的なデータ拡張戦略を導入し、大幅に堅牢性が向上した新しい生成報酬モデルを訓練しました。本研究の結果は、より信頼性の高いLLMに基づく評価方法への緊急かつ重要なニーズを浮き彫りにしています。我々は堅牢で汎用的な報酬モデルとその合成訓練データを https://huggingface.co/sarosavo/Master-RM および https://huggingface.co/datasets/sarosavo/Master-RM で公開します。