概要

本稿では、強化学習を用いて大規模言語モデル（LLM）を診断エージェントとして訓練するための枠組みを提示する。これにより、複数ターンにわたる診断プロセスを管理し、検査の適応的選択を行い、最終診断を確定する能力を獲得する。従来の静的な症例要約データで微調整された指令チューニングモデルとは異なり、本手法は対話的探索と結果に基づくフィードバックを通じて、診断戦略を獲得する。本研究の貢献は以下の4点である：（i）電子カルテデータを用いて学習された診断世界モデル「DiagGym」を提案する。このモデルは、患者の病歴と推奨検査に基づいて検査結果を生成し、現実的な診断訓練および評価に適した仮想臨床環境を提供する；（ii）エンドツーエンドかつ複数ターンの強化学習によりDiagAgentを訓練し、情報収集効率と診断精度の両方を最適化する診断方針を学習する；（iii）臨床医による検査推奨の検証済み750症例と、診断プロセスに関する973件の臨床医が作成した評価基準（ルーブリック）を付与した99症例から構成される診断ベンチマーク「DiagBench」を導入する；（iv）多様な診断設定において優れた性能を示す。DiagAgentは、DeepSeek-v3やGPT-4oを含む10種類の最先端LLMおよび2種類のプロンプト設計エージェントを大きく上回る。単ターン設定では、診断精度が9.34%向上し、検査推薦のヒット率が44.03%改善された。エンドツーエンド設定では、診断精度が15.12%向上し、検査推薦のF1スコアが23.09%向上した。ルーブリックに基づく評価では、次に優れたモデルであるClaude-sonnet-4を7.1%の加重ルーブリックスコアで上回った。これらの結果は、対話型臨床環境において方策を学習することで、受動的学習のみでは得られない動的かつ臨床的に意味のある診断管理能力が獲得可能であることを示している。

ソースPDF コードを表示