HyperAIHyperAI

Command Palette

Search for a command to run...

LLMの科学的汎用知能を科学者に整合したワークフローで探求する

Abstract

科学的AIの進展にもかかわらず、科学的領域を横断的に自立的に概念化・調査・推論する能力である科学的汎用知能(Scientific General Intelligence: SGI)を統合的に捉える枠組みは依然として欠如している。本研究では、実践的探究モデル(Practical Inquiry Model: PIM:熟考、概念形成、行動、知覚)に基づいた操作的SGI定義を提示し、研究者と整合する4つのタスク(深層研究、アイデア生成、デューアン実験(乾式実験)、ウェット実験(湿式実験)、実験的推論)を通じてその実装を図った。SGI-Benchは、『サイエンス』誌の「125の大きな科学的問い」をインスピレーションとして、1,000件以上の専門家によって厳選された跨学際的なサンプルを収録しており、最先端の大規模言語モデル(LLM)の体系的評価を可能にする。評価結果から以下の課題が明らかになった。深層研究においては、手順レベルでは整合性が見られるものの、正確一致率は10~20%にとどまる;アイデアは実現可能性と詳細性に欠ける;デューアン実験ではコード実行性は高いものの、実行結果の正確性は低い;ウェット実験のプロトコルではシーケンスの忠実度が低く、多様なモダリティ間の比較推論においても継続的な課題が存在する。さらに、推論時強化学習(Test-Time Reinforcement Learning: TTRL)を導入し、推論段階でリトリーブ拡張型の新規性報酬を最適化することで、参照解答に依存せずに仮説の新規性を向上させることに成功した。本研究で提示するPIMに基づく定義、作業フロー中心のベンチマーク、および実証的知見は、真に科学的発見に参加可能なAIシステムの構築に向けた基盤を確立するものである。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LLMの科学的汎用知能を科学者に整合したワークフローで探求する | Papers | HyperAI超神経