OpenAI、AIが実務で人間並みの成果を上げる実証データを公開
OpenAIが、AIが実際の職場で人間と同等の作業をこなせる可能性を示す新たな評価基準「GDPval」を発表した。この基準は、AIが経済的に価値のある実世界の業務をどれだけ正確にこなせるかを測るもので、44の職種・9つの主要産業(不動産、政府、製造、金融など)にわたる知識職のタスクを対象としている。OpenAIは、従来のAIベンチマークが抽象的な学術問題に偏っている点を問題視し、実務に即した評価の必要性を強調。GDPvalは「Gross Domestic Product(GDP)」にちなんで名付けられ、経済に貢献する主要産業の代表職を対象に構築された。 タスクは、各業界の平均14年間の経験を持つ専門家が実際の業務をもとに設計。例として、法的書類の作成、エンジニアリング図面の作成、カスタマーサポート対応、看護計画の作成などが含まれる。AIの出力は、同業の専門家による盲検評価で人間の成果と比較され、優れる、同等、劣るの三段階で判定された。 評価結果によると、現行のトップAIモデルは人間の専門家と比較しても、多くの業務で同等以上の成果を上げている。特にClaude Opus 4.1は、GDPvalの「ゴールドセット」220タスクで47.6%の勝ち・同率の率を記録。文書のレイアウトやスライドデザインなどの美意識に優れていた。GPT-5 highは38.8%で、指示の正確な遵守や計算の正確性が強み。一方、GPT-4oは12.4%にとどまり、最も低い評価となった。 AIはカウンター・レンタル係や在庫管理係、販売マネージャー、ソフトウェア開発者などの業務で特に優れた結果を出したが、工業エンジニアや薬剤師、ファイナンシャルマネージャー、映像編集などの職種では課題が残った。OpenAIは、AIが人間より100倍速く、100倍安価にタスクを処理できると説明しつつ、AIが「すべての仕事を代替できる」とは考えていない。多くの仕事は、単なるタスクの集合ではなく、創造性や判断力が不可欠だと指摘。GDPvalの目的は、AIが繰り返し作業を担い、人間が創造的・判断的な部分に集中できるようにすることにあると強調している。