AIが医師を上回る診断精度でも人間と協働は難しい?芝大研究が示した「人機協働」の真実と可能性
アメリカ・シカゴ大学の研究チームが、AIを活用した前立腺がんの磁気共鳴画像(MRI)診断における人間とAIの協働の実態を明らかにした。研究では、AIの診断精度が放射科医の平均を上回るにもかかわらず、単体の医師がAIを適切に活用できず、結果として人機協働の効果が限界に達することを突き止めた。第一著者である陳訶姹博士は、「前立腺MRI診断は臨床的に難易度が高く、医師の正確性も限界があるため、AIの活用可能性が大きい」と説明。研究では、1411例のデータを用いてnnU-NetをベースにしたAIモデルを構築。テストでは、AIのAUROCが0.730~0.790と、8名の経験豊富な放射科医(平均年齢40代前半)の平均63.2%を上回る69.3%の正確性を達成した。 研究は2段階の実験で構成された。第一段階では、医師がAIの予測を確認する前後に診断を実施。AIの支援を受けた場合、正確性は66.2%まで向上したが、AI自身の性能を上回ることはできなかった。特に、医師とAIの判断が食い違う22.6例のうち、医師がAIに従ったのはわずか4.6例(20.4%)にとどまり、その際の医師の正確性は44.4%と低かった。これは、医師がAIの信頼性を正しく評価できず、最も助けが必要な場面で自らの判断を固守してしまう傾向を示している。 第二段階では、医師に個人の診断データとAIの提示を事前に共有。AIの採用率は75.5%から78.4%へと上昇したが、診断精度の改善は見られなかった。この結果から、単なる情報提示では医師の判断習慣は変わらないと結論づけられた。 一方で、研究チームは「多数決」による医師集団の判断を試みた。8名の医師がAI支援下で出した診断を統合すると、平均正確性は73.3%に達し、AIの独立性能(69.3%)と医師の個人性能(63.2%)をいずれも上回った。これは、人間とAIが「補完的」に機能できることを実証した画期的な成果である。 陳博士は、「AIの能力の限界を明確に伝えることで、医師がより適切に信頼できるようになる」と強調。今後の課題として、AIモデルの精度向上とともに、医師がAIの強み・弱みを理解できる教育的支援の導入が不可欠と指摘している。 本研究は、ACM Conference on Fairness, Accountability, and Transparencyに発表され、シカゴ大学の陳訶姹博士が第一著者、谭宸浩教授が責任著者を務めた。
