自律的に思考するAIモデル「DeepSeek-R1」が数学・プログラミングで人間並みの問題解決能力を実現
中国のAI企業・DeepSeek AIの研究チームが、人間の指導なしに自ら問題を論理的に考える能力を持つAIモデル「DeepSeek-R1」を開発した。この成果は、Nature誌に2025年4月に掲載された論文で発表された。従来のAIが問題解決能力を学ぶには、人間が膨大な例を提示して「どのように考えるか」を教える必要があり、その結果、人間のバイアスがモデルに反映されたり、学習に時間がかかっていた。しかし、DeepSeek-R1はそのアプローチを一変させた。 研究チームは、強化学習(reinforcement learning)という手法を採用。モデルが正解を出したときにのみ報酬を与えることで、AIが自ら思考プロセスを構築するように促した。つまり、「どうやって解くか」を教えるのではなく、「正解にたどり着く仕組み」を自分で発見させるという方法だ。訓練中、R1は自身の解答を検証したり、複数のアプローチを試すなど、自己反省的な行動を示した。また、「待ってみよう」といった言葉を用いて思考の途中を言語化する様子も観察された。正解に至る道筋は強化され、誤りは排除される仕組みだ。 その成果は顕著だった。R1は数学、プログラミング、科学分野の課題において、従来の人間指導型モデルを上回る性能を発揮。特に、高校生の最高峰の数学競技会であるアメリカ招待数学競技会(AIME)2024において、86.7%の正解率を記録。これは人間の優秀な学生レベルに匹敵する結果だ。 ただし、まだ課題も残っている。非英語のプロンプトに対して言語を混在させたり、簡単な問題を無駄に複雑化するケースも見られた。研究チームは、これらの問題を改善すれば、自律的な思考を可能にするAIの時代が到来すると期待している。この技術は、将来的により高度で独立したAIシステムの実現に向けた重要な一歩と評価されている。
