GoogleがAIの正確性を測る新ベンチマーク公開、最良モデルでも正解率69%に留まる
グーグル・ディープマインドの研究チームが、AIモデルの事実精度を測定する新しいベンチマーク「FACTS Benchmark Suite」を発表し、現行AIの限界を明確にした。このテストは、内部知識に基づく事実クエスチョンへの回答、ウェブ検索の有効活用、長文ドキュメントへの根拠付け、画像の解釈の4つの分野でモデルの正確性を評価した。結果、最高水準のモデルであるグーグルの「Gemini 3 Pro」でも、正解率は69%にとどまった。他の主要モデルはさらに低い水準にとどまり、人間の期待に大きく届かない状況が明らかになった。 この数字は、特にビジネスや専門分野におけるAIの活用に警鐘を鳴らす。AIは速度と自然な表現力に優れるが、正確性の面では依然として人間の水準に遠く及ばない。特に金融、医療、法務など、誤りが重大な影響を及ぼす分野では、わずかな事実の誤りが信頼の損失や法的リスクを引き起こす可能性がある。 実際、法律事務所ではAI生成の文書に架空の判例が含まれていたことから、従業員が解雇された事例も報告されている。こうした事態は、AIの「出力の信頼性」を軽視するリスクを示している。 FACTSベンチマークは、AIの弱点を可視化する手段として、研究の進展を促すための道しるべとなる。しかし、現時点での教訓は明確だ。AIは進化を続けているが、約1/3の確率で誤りを生み出す。開発者や企業は、AIの出力を「自動的に信頼する」のではなく、常に検証と監視を徹底する必要がある。
