OpenAI、LifeSciBenchを公開:AIの生命科学研究力を評価
生命科学研究におけるAIエージェントの実用性を評価する新規ベンチマーク「LifeSciBench」が発表された。従来の評価指標が限定的な知識 Recall や単一タスクの遂行能力に偏る課題を踏まえ、同ベンチマークは実際の研究現場が直面する複雑な判断プロセスを設計コンセプトとしている。173名のPh.D.保有専門家が関わり、750のタスクが証拠統合、解析、実験設計、科学的推論、検証、創薬翻訳、科学コミュニケーションの7ワークフローに分類して構築された。タスクの過半数が図表や配列ファイルなどの附属アートを必要とし、単なる正解出力ではなく、不確実性の扱いや実務的な推論過程を重点的に計測する。 評価体系は19,020項目に及ぶ詳細ルーブリックを採用。回答の科学的妥当性と現場での意思決定への有用性を細分化し、完全解答でなくても部分的な論理展開や制約条件の把握を評価する。453名の外部専門家による独立検証では、タスクの現実適合性と科学性について96%以上の一致を得ており、指標の信頼性が確立された。 最新モデルの性能評価では、GPT-RosalindがGPT-5.5を上回り、全体のパースレートが25.7%から36.1%に改善した。特に科学的手順や臨床応用への翻訳分野で急速な進歩が確認された。一方で、複合図表や大量配列データからの情報抽出、構造設計タスクにおける性能低下は顕著であり、アビリティの限界が浮き彫りとなった。Exact-answer系タスクでも限界が続き、モデルは部分的な論理展開に留まることが多い。 LifeSciBenchはAIが生命科学研究に実際に貢献できる水準を測る重要な指標となった。単一タスクの完了と実際の研究加速を同一視せず、今後はリアルな研究ワークフローにおける長期的な導入効果を検証するフェーズへ移行する必要がある。
