Command Palette
Search for a command to run...

要約
近年、大規模言語モデル(LLM)を基盤とするエージェントの発展は、複数の分野にわたり驚異的な能力を示しており、複雑な情報探索および統合タスクにおいて優れた性能を発揮する深層研究システムがその代表例である。一般用途の深層研究エージェントは、その能力の高さを示しているものの、医療分野における課題に対しては著しく苦戦しており、最先端のプロプライエタリシステムですら、複雑な医療ベンチマークにおいて限界のある正確性しか達成できていない。主な制約要因は以下の2点である:(1)モデルが臨床的推論に必要な十分な濃密な医療知識を備えていないこと、および(2)医療文脈に特化したリトリーブツールが欠如しているため、フレームワークに制約が生じていること。本研究では、これらの課題を解決するための医療分野専用の深層研究エージェントを提案する。本研究の核心的革新は以下の2点である。第一に、医療知識グラフを活用した新規なデータ合成フレームワークを開発し、希少な医療エンティティ周辺のサブグラフから最長のパスを抽出することで、複雑なマルチホップ型質問・回答ペアを生成した。第二に、汎用ツールに加えて、独自に構築したプライベートな医療用リトリーブエンジンを統合することで、正確な医療情報の統合を可能にした。本アプローチにより、12の医療専門分野にわたり2100件以上の多様な推論経路を生成し、平均して各経路で4.2回のツール操作が行われた。さらに、教師あり微調整とオンライン強化学習を組み合わせた二段階の訓練アーキテクチャ(合成報酬を用いた)を採用することで、MedResearcher-R1-32Bモデルは優れた性能を発揮し、医療分野のベンチマークにおいて新たなSOTA(最良の結果)を達成するとともに、一般用途の深層研究タスクにおいても競争力ある性能を維持した。本研究は、アーキテクチャ設計、ツール開発、および訓練データ構築における戦略的な分野特化型の革新が、より小型のオープンソースモデルが、はるかに大きなプロプライエタリシステムを上回る性能を専門分野で発揮可能であることを示している。