AIが「自らの不安」を活かして計算コストを85%削減、AIME25で99.9%の精度を達成
人工知能が複雑な論理問題や数学オリンピックレベルの課題を解く能力を高めつつある一方で、その効率性と正確性には課題が残っている。Meta AIの研究チームは、こうした問題を解決する新技術「DeepConf(Deep Think with Confidence)」を発表した。これは、大規模言語モデル(LLM)が複数の解き方を試行する「自己整合性(self-consistency)」手法を、よりスマートに進化させたものだ。 従来の方法では、1つの問題に対して512通りの推論経路を生成し、最も多く選ばれた答えを採用する。これにより、AIME 2025のベンチマークで正解率が68%から82%まで向上するが、その代償として約1億トークン分の無駄な計算が発生する。さらに、低品質な推論が多数を占めると、投票結果が信頼できなくなるという問題もあった。 DeepConfは、この課題を「自信(confidence)」という内部信号で解決する。モデルが各トークンを予測する際の確信度(エントロピーの低さ)をリアルタイムで評価し、信頼できない推論経路を途中で打ち切る。これにより、不要な計算を大幅に削減できる。特に「グループ信頼度(Group Confidence)」や「末尾信頼度(Tail Confidence)」といった細かい指標を活用することで、推論の最後の段階や重要な部分の信頼性を精査できる。 実際のテストでは、GPT-OSS-120Bを用いたDeepConf@512がAIME 2025で99.9%の正解率を達成。一方、従来の多数決方式は97.0%、単一試行は91.8%にとどまる。さらに、計算量は従来手法比で最大84.7%削減された。 DeepConfは「オフライン」(事前に生成した経路から信頼度をフィルタリング)と「オンライン」(生成途中で自信を測定し、低信頼経路を早期に停止)の2モードで動作し、効率性と正確性の両立を実現。この技術は、AIが「自らの不確実性を認識し、賢く判断する」能力の象徴であり、将来的なAI開発における「知的効率性」の新たな指針となる。