概要

大規模言語モデル（LLM）の会話能力および推論能力が進化する中、医療分野における実用的応用が重要な研究課題となっている。しかし、米国医学専門資格試験（USMLE）などの静的ベンチマーク上で示される医療LLMの性能と、現実の臨床意思決定における実用性の間には顕著なギャップが存在する。この乖離は、従来の試験が医療相談の動的かつインタラクティブな性質を捉えていないことに起因する。この課題に対処するため、本研究では静的解答検証器を超越する新たな動的検証フレームワークを提案する。このフレームワークは、大規模かつ高忠実度のインタラクティブ強化学習システムを構築することを可能にする。本フレームワークは、2つの主要な構成要素からなる：匿名化された医療記録を用いて現実的な臨床環境を再現する「患者シミュレータ」と、動的に多次元評価指標を生成する「臨床評価基準生成器」である。この基盤の上に、改良型のグループ相対方策最適化（GRPO）アルゴリズムを用いた多段階強化学習戦略により、320億パラメータを持つ医療拡張推論モデル「Baichuan-M2」を構築した。HealthBenchベンチマーク上で評価した結果、Baichuan-M2はすべてのオープンソースモデルおよび多数の先進的なクローズドソースモデルを上回り、困難なHealthBench Hardベンチマークにおいて32以上のスコアを達成した。これは、GPT-5にのみ以前達成された水準である。本研究は、LLMの能力を実臨床応用と一致させるために、堅牢な動的検証システムの必要性を示し、医療AIの実装における性能とパラメータ数のトレードオフに関する新たなパレート最適解を確立した。

ソースPDF