HyperAIHyperAI

Command Palette

Search for a command to run...

GeneBench-Pro公開 AIの生物解析判断力を評価

計算生物学の高度な推論能力を評価するための新たなベンチマークGeneBench-Proが発表された。本研究レベルのフレームワークは、ゲノミクス、定量生物学、転換医学の129課題から構成され、AIエージェントが不確実性や曖昧さを伴う実際の研究現場でどのように判断し、仮説を修正・深化させるかを測ることを目的としている。従来のベンチマークが陥りやすい多様な正解パスや数値的に曖昧な問題を回避するため、各課題は因果構造が完全に制御された合成データを用いて設計されている。これにより分析選択が正解に直結するか検証可能となり、10課題がHugging Faceで公開され、50課題が独立した第三者機関による評価に供される予定だ。 初期モデルでは5%未満だった最難関レベルの正答率は、最新推論モデルGPT-5.6 Solにおいて28.7%(Proモード有効で31.5%)まで向上した。テスト時の計算資源を拡張することで性能が顕著に高まる傾向が確認され、フロントティアモデルの科学的推論能力が急速に進化していることが示唆された。一方、オープンソースモデルはコーディング能力では優れているものの、広範な推論能力では依然として後れを取っている。 生物学的シーケンシングコストの劇的な低下により、研究のボトルネックはデータ生成から解析へ移行している。専門家レベルの課題解決には通常20から40時間、約4000から8000ドルのコストと時間を要するが、AIエージェントの推論コストは数ドルに留まる。現状では完全な自動化には至っていないものの、分析ループの閉鎖において人間と新人の差に匹敵するモデルの特性が明確になり、部分的な自動化により科学発見の加速や創薬ターゲットの選定プロセスに実質的な経済的価値をもたらす可能性がある。GeneBench-Proは、定型作業を超える高度な科学的判断力を定量的に計測・改善するための基盤として、今後モデル能力の進化を牽引すると期待されている。

関連リンク