OpenAIのo3、科学質問対応のAIツールランキングで首位に輝く
OpenAI の AI モデル「o3」が科学分野での質問回答能力で最上位に 先週、人工知能研究機関 Allen Institute for Artificial Intelligence (Ai2) によって開発された新しいベンチマーキングプラットフォーム SciArena で、OpenAI の「o3」モデルが科学質問回答能力で23の大型言語モデル (LLM) の中から最上位にランクされしました。同プラットフォームでは、102人の研究者が各モデルの回答を評価し、合計13,000票以上が集まりました。「o3」は自然科学、医療、工学、人文・社会科学の質問に対しても優れた性能を示し、第2位には中国の DeepSeek 社が開発した DeepSeek-R1、第3位には Google の Gemini-2.5-Pro が続きました。 研究者たちは「o3」が参照文献を詳しく引用し、技術的な詳細を正確に表現する能力を高く評価しています。ただし、なぜ各モデルの性能に差があるのかは明確ではありません。大多数のモデルがプロパティ(特許や著作権)により制限されているため、訓練データの違いや最適化目標などの要因が一部影響している可能性があります。 SciArena は、AI モデルの特定タスクにおける性能を評価する最新のプラットフォームの一つです。SciArenaでは、科学的な質問を投げかける研究者がランダムに選ばれ、その質問に対して2つのランダムに選ばれたモデルが回答。ユーザーは回答の良し悪しを票で判断します。プラットフォームは現在一般公開されており、無料で利用できます。すべてのユーザーが2つのモデルからの回答を受け取り、その性能を評価することができますが、リーダーボードに反映されるのは利用規約に同意した認証済みユーザーからの投票のみです。 豪州シドニー大学の AI 研究者 Jonathan Kummerfeld 氏は、「科研文献の最新動向を正確に把握できるようになることで、SciArena は研究者が見落としがちな重要な仕事を発見するために役立つだろう」と述べています。このプラットフォームが、科学者の仕事にどのように貢献するかは今後ますます注目されていくでしょう。