大規模推論モデルの限界:複雑さが増すと急落する性能
大規模推論モデル(LRM)は、段階的な推論と自己検証を促すように微調整された大規模言語モデル(LLM)であり、グラフ推論や自然言語証明計画といったベンチマークで優れた性能を示している。特にNLGraphなどのタスクでは、数学、物理学、医学、法務など推論が求められる分野での一般化推論や創造的思考を可能にするとの声も上がっている。しかし、本研究では、これらの成果が実際の複雑さに照らして限界があることを明らかにした。 研究チームは、推論問題の複雑さを段階的に拡張できる新しいデータセット「Deep Reasoning Dataset(DeepRD)」を構築。このデータセットを用いて、グラフ接続性や自然言語証明計画のタスクを評価した結果、LRMの性能は一定の複雑さを超えると急激に低下し、一般化能力は見られなかった。これは、現行のLRMが訓練データの複雑さの範囲内でのみ有効であり、その外では信頼性が著しく低下することを示している。 さらに、現実世界の知識グラフ、相互作用グラフ、証明データセットの複雑さ分布を分析した結果、多くの事例はLRMの成功領域に収まるものの、長尾部分には重大な失敗リスクが潜んでいることが判明。つまり、現実の問題の多くは現在のモデルが扱える範囲内に収まるが、極めて複雑なケースでは予期せぬ誤りが発生する可能性がある。 結論として、LRMは近い将来、一定の推論タスクにおいて実用的な価値を持つが、その限界を認識し、訓練データの複雑さを超える一般化能力を持つ新規なアプローチの開発が急務である。本研究は、AI推論モデルの現実的な適用可能性と、さらなる技術革新の必要性を明確にした。
