HyperAIHyperAI

Command Palette

Search for a command to run...

AIモデルの実験室安全対応に重大な課題 新ベンチマークで全モデルがリスク認識不足を露呈

人工知能(AI)が科学実験の現場で活用される可能性は広がっているが、最新の研究により、現行のAIモデルには重大な安全リスクが潜んでいることが明らかになった。Nature Machine Intelligenceに掲載された研究では、大規模言語モデル(LLM)や視覚言語モデル(VLM)の多くが実験室安全に関する知識に大きなギャップを抱えていると指摘された。研究チームは、これらのモデルが危険の特定やリスク評価、結果予測において信頼できない結果を出す可能性があるため、実験現場での自動化利用には慎重な対応が不可欠だと警告している。 この研究の中心となるのは、「LabSafety Bench」と呼ばれるベンチマークフレームワーク。765問の選択式問題、404の現実的な実験シナリオ、3,128の自由記述型タスクを含み、生物学・化学・物理学・一般実験室の分野における危険識別、リスク評価、結果予測を評価する。19のAIモデル(8つの独自モデル、7つのオープンウェイトLLM、4つのオープンウェイトVLM)が評価された結果、トップモデルであるGPT-4o(86.55%の正答率)やDeepSeek-R(84.49%)でも、特に放射線、物理的危険、機器使用、電気安全といった分野では成績が悪かった。特に注目すべきは、危険の特定タスクでどのモデルも70%を超える正答率を達成できなかったことだ。また、Vicuna系モデルは特に成績が低く、テキスト系の複数選択問題ではランダムな選択とほとんど差がなかった。 さらに、ヒューマンインプットテスト(HIT)や結果予測テスト(CIT)では、化学や超低温液体、一般実験安全分野での性能が顕著に劣っていた。研究チームは、微調整やリトリーバー増強生成(RAG)などの手法で性能向上を試みたが、一貫した改善は得られず、モデルの改善には限界があると結論づけた。 研究チームは、AIの進化は続くが、現在のモデルは「幻覚」を起こしやすく、危険物取り扱いなどでは命に関わる誤りを生む可能性があると強調。AIの安全な活用には、人間の監視が不可欠であり、特に実験室環境では、AIの出力を必ず人間が検証すべきだと訴えている。また、LabSafety Benchのような評価ツールの活用を呼びかけ、AIの安全な導入を進めるための基盤づくりの重要性を強調している。

関連リンク

AIモデルの実験室安全対応に重大な課題 新ベンチマークで全モデルがリスク認識不足を露呈 | 人気の記事 | HyperAI超神経