Command Palette

Search for a command to run...

1ヶ月前

事前学習データにおける強化学習

事前学習データにおける強化学習

要約

計算資源の指数関数的拡張と高品質なテキストデータの有限な増加との間に生じている乖離は、大規模言語モデル(LLM)における従来のスケーリングアプローチを制約する要因となっている。この課題に対処するため、本研究では、事前学習データ上で強化学習を適用する(Reinforcement Learning on Pre-Training data; RLPT)という、LLMの最適化を目的とした新たなトレーニング時のスケーリングパラダイムを提案する。従来のアプローチが主に教師あり学習によってトレーニングをスケーリングするのに対し、RLPTはポリシーが事前学習データから意味のある学習経路を自律的に探索し、強化学習(RL)によって能力を向上させることを可能にする。既存のRL戦略である人間からのフィードバックを用いた強化学習(RLHF)や検証可能な報酬を用いた強化学習(RLVR)は、報酬の構築に人間のラベル付けに依存しているが、RLPTは事前学習データから直接報酬信号を導出することで、この依存関係を排除する。具体的には、次のテキストセグメントを前件文に基づいて正確に予測するという「次のセグメント推論」を目的関数として採用し、ポリシーに報酬を与える。この定式化により、強化学習を事前学習データ上でスケーリング可能となり、より広範な文脈にわたる豊かな経路の探索を促進し、より汎化性の高い推論能力の育成を実現する。複数のモデルを対象とした一般ドメインおよび数学的推論ベンチマークにおける広範な実験により、RLPTの有効性が検証された。例えば、Qwen3-4B-Baseに適用した場合、MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24、AIME25において、それぞれ3.0、5.1、8.1、6.0、6.6、5.3の絶対的な性能向上が得られた。結果は良好なスケーリング特性を示しており、さらなる計算リソースの投入によって継続的な性能向上が期待できる可能性を示唆している。さらに、RLPTはLLMの推論能力の限界を拡張する基盤を提供し、RLVRの性能向上にも寄与することが明らかになった。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
事前学習データにおける強化学習 | 論文 | HyperAI超神経