大規模モデルに「直感思考」を搭載、OThink-R1が不要な深層推論を自動回避
浙江大学の張盛佳氏らの研究チームが、大規模言語モデルが自ら「深く考える必要があるか」を判断できる仕組み「OThink-R1」を提案した。この研究は、現在の深層推論モデルが、たとえば「1+1=?」のような簡単な問題に対しても無駄に長い思考プロセスを経るという課題に着目。人間が直感で答えられるようなタスクでも、モデルが過剰に思考を深めることで計算リソースの浪費が生じており、効率性に問題があると指摘している。 研究チームは、人間の思考パターンに着想を得て、「速い思考(直感)」と「遅い思考(深層分析)」の切り替えをモデルに実装することを目指した。具体的には、非推論モデル(速い思考)が正しく処理できる簡単な問題に対して、深層推論モデルが生成する思考過程を分析。その中から「必要ない思考」(冗長な推論)を識別し、それらを削除した混合思考プロセスデータセットを構築。このデータセットを用いて、深層推論モデルを監視微調整(Supervised Fine-tuning)することで、モデルが自ら「深く考えるべきか」を判断できる能力を付与した。 このアプローチにより、OThink-R1は簡単な質問には直感的に答え、複雑な問題では深く思考するようになり、計算リソースの無駄を削減。結果として、推論効率が向上し、テスト時計算量(Test-time Scaling)の活用もよりスマートに実現可能となる。 研究はOPPOと浙江大学の共同プロジェクトの一環。当初は強化学習(GRPO)やDPO(Direct Preference Optimization)を試みたが、DeepSeek-R1などのモデルの指示遵守能力の低さから、安定した学習が困難だった。最終的に、データセットの再構築と監視微調整により、性能の低下を抑えつつ、効果的な思考切り替えを実現した。 現在のOThink-R1は、冗長思考の判断に大規模モデル「LLM-Judge」を用いているが、今後は端末から端末への自動判断を実現する方向で研究を進める予定。本研究は、AIの効率的運用と実用化に向けた重要な一歩と評価されている。
