HyperAIHyperAI

Command Palette

Search for a command to run...

Parallel-R1:強化学習を活用した並列的思考の実現へ

概要

並列的思考(Parallel thinking)は、複数の推論経路を同時に探索することで、大規模言語モデル(LLM)の推論能力を向上させる新しいアプローチとして注目されている。しかし、このような能力を訓練によって有効化することは依然として困難であり、従来の手法は主に合成データ上で教師強制的な微調整(Supervised Fine-Tuning: SFT)に依存しており、探索や汎化を促すのではなく、単に教師の模倣を促進する傾向にある。これに対して、本研究では、複雑な現実世界の推論課題において並列的思考行動を実現可能な、初めての強化学習(Reinforcement Learning: RL)フレームワーク「Parallel-R1」を提案する。本フレームワークは、RLによる並列的思考の訓練における「コールドスタート問題」に明示的に対処する段階的カリキュラムを採用している。まず、簡単なタスクから生成されたプロンプト経路に対してSFTを適用し、並列的思考能力を初期段階で習得させた後、難易度の高い問題においてRLを用いてそのスキルの探索と汎化を図る。MATH、AMC23、AIMEなど、さまざまな数学ベンチマークにおける実験結果から、Parallel-R1が並列的思考を効果的に習得できることを確認した。これは、困難なタスクに対して直接RLで微調整を行った逐次的思考モデルと比較して、正解率で8.4%の向上を達成した。さらに分析の結果、モデルの思考行動に明確な変化が見られた。初期段階では並列的思考が探索戦略として用いられ、後期段階では多視点による検証に活用されるようになった。特に重要なのは、並列的思考が中間段階での探索用の支援枠(scaffold)として機能することを実証した点である。この一時的な探索段階がRLの後段でより高い性能限界を実現可能にし、AIME25においてベースラインモデルと比較して42.9%の性能向上を達成した。本研究のモデル、データ、コードは、https://github.com/zhengkid/Parallel-R1 にてオープンソースとして公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Parallel-R1:強化学習を活用した並列的思考の実現へ | 記事 | HyperAI超神経