HyperAIHyperAI

Command Palette

Search for a command to run...

推論か記憶か?強化学習のデータ汚染による信頼性の低い結果

概要

大規模言語モデル(LLMs)の推論能力は、長年にわたる研究の焦点となっています。最近の研究では、強化学習(RL)を用いてこれらの能力をさらに向上させることに成功しており、多くの新手法が最小限または外部監督なしで著しい改善を主張しています。驚くべきことに、一部の研究では、ランダムまたは誤った報酬信号が推論性能を向上させる可能性があると示唆しています。しかし、これらの画期的な成果は主にQwen2.5モデルファミリーで報告され、MATH-500、AMC、AIMEなどの広く知られたベンチマークで評価されていますが、Llamaなどの他のモデルでは同様の改善が見られず、さらなる調査が必要です。当社の分析によると、Qwen2.5は強い数学的推論性能を達成していますが、大規模なウェブコーパスでの事前学習により、人気のあるベンチマークにおけるデータ汚染に対して脆弱であることが明らかになりました。その結果、これらのベンチマークから得られる結果は信頼できない可能性があります。これを解決するために、任意の長さと難易度を持つ完全に合成された算術問題を生成するジェネレーターを導入し、「RandomCalculation」と呼ぶクリーンなデータセットを作成しました。この漏洩がないデータセットを使用して示したところ、正確な報酬信号のみが一貫して性能を向上させることを確認しました。一方で、ノイジーまたは誤った信号は効果がありませんでした。私たちは強化学習手法を未汚染のベンチマークおよび多様なモデルファミリーで評価することを提唱し、信頼性のある結論を得ることを目指しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
推論か記憶か?強化学習のデータ汚染による信頼性の低い結果 | 記事 | HyperAI超神経