OpenAI、数学オリンピック金メダル獲得のAIで「思考するエージェント」実現へ
OpenAIは、AIがユーザーの依頼をすべて自動で遂行する「AIエージェント」の実現を目指し、長年にわたる研究を進めてきた。2022年に研究者として加入したハンター・ライトマンは、当初、高難度の高校数学コンテスト問題を解くAIの開発に取り組んでいた。このチーム「MathGen」の成果は、後に同社のAI推論能力の基盤となり、2024年秋に発表された推論モデル「o1」の開発に直結した。 o1は、強化学習(RL)と「テスト時計算」と呼ばれる技術を組み合わせ、問題を検証しながら段階的に解決する「思考の連鎖(Chain-of-Thought)」を可能にした。これにより、AIは数学的推論を正確に行えるようになり、国際数学オリンピックで金メダルを獲得するまでに至った。この進展は、AIが単なるテキスト生成ではなく、複雑なタスクを「考える」能力を持つようになったことを示している。 OpenAIは、この推論モデルを基盤に、人間のようにコンピュータ上で作業を行うAIエージェントの開発を推進。CEOのサム・アルトマンは、将来的には「何をしたいかを言ったら、すべてを自動でやってくれる」環境を目指していると語っている。その実現に向け、2023年以降、研究チームは計算リソースと人材を集中投資。特に、AIが答えを出す前に時間をかけて検証する仕組みの開発が鍵となった。 この技術的突破は、シリコンバレーで極めて高価な人材争奪戦を引き起こした。o1開発の中心メンバーの5人がメタに引き抜かれ、一部は1億ドルを超える報酬で招へいされた。同社は、AIが「人間のように考える」のかという議論よりも、その実用性に焦点を当てており、推論能力の向上が開発者や一般ユーザーにとっての価値を高めると見ている。 ただし、現在のAIエージェントは、コード生成など明確な正解がある分野で有効だが、オンラインショッピングや駐車場探しといった主観的・曖昧なタスクでは依然として誤りが多い。研究者たちは、こうした課題を「データ不足」や「検証困難なタスクの学習」に起因すると指摘。新しい強化学習手法により、複数のAIエージェントが同時にアイデアを試行し、最適解を選ぶ仕組みを構築しており、GoogleやxAIも同様のアプローチを進める。 OpenAIは、次世代のGPT-5でこれらの能力をさらに強化し、ユーザーが明示的な設定をせずに、自然に意思を理解し、適切なツールを呼び出し、適切な時間で考えを進める「直感的なAIエージェント」の実現を目指している。しかし、GoogleやAnthropic、Meta、xAIといった競合も急速に追い上げており、OpenAIがその先を行くかは、今後の開発速度と戦略次第となる。