HyperAI超神経

医師研修ではDeepSeekプラグインを歓迎します!上海体育学院、上海交通大学、清華大学の共同研究により、大型モデルがプライマリケア医師のトレーニングの「黄金のパートナー」になり得ることが証明された。

特色图像

世界的な健康状況において、糖尿病は「津波レベル」の猛烈な勢いで人類の健康防御を攻撃しています。過去 30 年間で、この静かで極めて残酷な健康闘いにより、8 億 4,000 万人が病気になりました。つまり、平均して 9 人に 1 人が残念ながら糖尿病と診断されていることになります。 「ランセット」誌が最近出した警告は警鐘を鳴らしている。2050年までに世界の糖尿病患者数は13億1千万人を超えると推定されており、これは平均して2.3秒ごとに1人が糖尿病という巨大な集団に加わることを余儀なくされることを意味する。

慢性疾患である糖尿病は、無慈悲な「健康の収穫者」のようなものです。貴重な医療資源を年間10%の割合で消費するだけでなく、毎年400万人の命を容赦なく奪っています。失明、腎不全、切断など、この病気によって引き起こされる深刻な合併症は、数え切れないほど多くの患者の人生を終わりのない暗闇に陥れ、家族全員を苦痛の淵に突き落としました。

この深刻な健康危機において、一次医療制度に露呈した「格差」は悲痛なものだ。私の国を例に挙げると、内分泌学者は人口10万人あたりわずか0.3人しかおらず、いかに不足しているかが分かります。さらに深刻なのは、70% の主治医 (PCP) が糖尿病合併症のリスク評価を独自に完了する能力を欠いていることです。従来の専門訓練モデルは間違いなく事態を悪化させており、「三重のジレンマ」に陥っています。研修サイクルは3~5年と長いことが多く、医学知識の急速な反復に追いつくには長すぎます。東部と西部の研修リソースには大きな差があり、その差は40倍以上あり、リソースの配分に深刻な不均衡があります。研修コースは高度に均質化されているため、73%の現場の医師は研修を修了した後も認知の盲点を抱えています。

科学技術の急速な発展に伴い、DeepSeekやChatGPTなどの大規模モデルが世界の医療分野に強力に介入し、医学教育に新たな希望をもたらし、医学教育のパラダイムを徐々に再構築しています。これらの大規模モデルは、強力な知識の蓄積と優れた推論能力を備えており、プライマリケア医の知識の多くの盲点を埋めることが期待されています。しかし、医療分野におけるこの革命は順風満帆というわけではなく、2つの大きな課題に直面しています。一方では、大型モデルの「幻覚」問題は依然として深刻であり、医療の安全性に大きなリスクをもたらします。一方で、約30%のAI誤診事例は、トレーニングデータの誤ったラベル付けによって引き起こされました。さらに、断片化された臨床実践と継続的に更新されるガイドラインライブラリの間には大きなギャップがあり、AIの価値を十分に実現することが著しく制限されています。

AIが提示した診断結果が医師の臨床経験と矛盾する場合、「人間と機械の協調的意思決定」という新しいパラダイムをどのように構築するかが、医療の公平性と効率性に関する重要な課題となっています。  ビッグモデルをプライマリケア医に代わる「ターミネーター」ではなく、効果的な「スマートな外部脳」にすることでのみ、将来の糖尿病管理における AI 革命は、何億人もの患者に真に利益をもたらすことができる。これは、健康中国戦略のニーズとも非常に一致している。

最近、上海交通大学の盛斌教授チーム、上海体育大学の茅立娟教授チーム、清華大学の黄天銀教授チーム、上海糖尿病研究所の賈衛平教授チームが他の学際的な力と手を組み、米国のデューク大学、ジョンズ・ホプキンス大学、オーストラリアのメルボルン大学など、世界トップクラスの大学や研究機関と緊密な協力関係を築いています。彼らは、権威ある中国語と英語のバイリンガル試験システムの助けを借りて、新しい評価スキームを共同で構築し、ChatGPT-3.5、ChatGPT-4.0、Tongyi Qianwenなど、国内外の主流の大規模言語モデル(LLM)10個に対して体系的なテストを実施しました。

同時に、チームは、医師のトレーニングを支援する上での DeepSeek の有効性も評価しました。  この一連の研究を通じて、研究チームは、プライマリケア医師のトレーニングを支援するビッグモデルの実際の有効性に関する世界初の前向きなリアルワールドエビデンスを提供しました。これは、医療分野におけるビッグモデルの応用に関する新たな研究方向を開拓し、プライマリケアレベルの向上のための貴重な参考資料を提供しました。

関連する結果は、「糖尿病トレーニングのための大規模言語モデル:将来的研究」というタイトルで Science Bulletin に掲載されました。

用紙のアドレス:

https://www.sciencedirect.com/science/article/pii/S2095927325000891

オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s

LLMの糖尿病に関する知識をテストする

チームは国内外の主流の法学修士課程10校を選定した。ChatGPT-3.5、ChatGPT-4.0、Google Bard、LlaMA-7B、LlaMA2-7B、Baidu ERNIE Bot、Tongyi Qianwen、Yilian MedGPT、Huatuo GPT、Chinese LlaMA2-7B を含む。

試験内容は中国語と英語の2つのパートから構成されます。これらは、それぞれ中国の糖尿病プライマリケア国家試験 (NCE-CPDC) および英国王立内科医会 (MRCP (UK)) の内分泌学および糖尿病専門認定試験 (SCE) に相当します。この研究では、各 LLM が入力に基づいて質問に答え、対応する分析指示を提供することが求められます。研究チームはその後、モデルによって生成された回答を公式の標準回答と比較し、相互チェックを行って精度を評価し、糖尿病分野における医学的知識の観点から各モデルの性能と応用可能性を総合的に測定しました。

研究デザインプロセス

中国語テスト - NCE-CPDC:

* NCE-CPDC: 中国国家プライマリ糖尿病ケア認定試験は、中国国家プライマリ糖尿病ケア事務局が主催する、PCP 向けに設計された専門試験です。

「国家一次糖尿病予防および管理ガイドライン」に基づいて、糖尿病の定義、スクリーニング、診断、紹介、ライフスタイル介入、薬物治療、急性および慢性合併症の管理など、さまざまな側面をカバーしています。 NCE-CPDC 認証は中国で、特に医療専門家や糖尿病ケアに携わる人々の間で広く認められています。正解率が60%を超える場合は合格とみなされます。これより低いスコアは不合格とみなされます。

このテストでは、ChatGPT-4.0 は、90.98% という高い精度で優れたパフォーマンスを発揮し、他のモデルを大幅に上回りました。Alitong YiQianwenも81.20%の精度で高い競争力を示し、ChatGPT-3.5よりも大幅に優れていました。他のモデルの中には合格基準を満たさなかったものもありますが、その後の技術的な改善や最適化のための貴重なデータと指針を提供しました。

英語テスト - SCE:

* SCE: 英国王立内科医会専門医認定試験(MRCP(英国))。この試験は非常に専門的かつ難易度が高く、2023 年の英国の受験者の合格率はわずか 28.6% です。

SCE 試験問題は、内分泌学者および糖尿病ケアの専門家向けに設計されており、糖尿病の病態生理学、診断、薬物療法、急性および慢性の合併症の管理などの難しい内容をカバーしています。 ChatGPT-4.0は62.50%の精度で合格ラインを通過しました。このパフォーマンスは、他の主流のLLM(Google Bard、LlaMA-7B、LlaMA2-7Bなど、いずれも資格基準を満たせなかった)をはるかに上回っています。この成果は、ChatGPT-4.0が高度に難解な専門コンテンツを処理する可能性を証明するだけでなく、その後の医療トレーニングにおけるLLMの応用に確固たる基盤を提供します。

LLMはプライマリケア医師のトレーニングを支援します

簡単なクイズテストを完了した後も、研究チームはそこで止まりませんでした。代わりに、実際のトレーニング シナリオにおける大規模言語モデル (LLM) の適用効果をさらに調査します。  今回、研究チームは研究対象として 7 人のプライマリケア医 (PCP) を慎重に選び、ChatGPT-4.0 の支援の有無にかかわらず、中国のプライマリ糖尿病ケア証明書国家試験 (NCE-CPDC) を受験するよう依頼しました。

テスト結果は驚くべきものでした。最初のテストでは、ChatGPT-4.0 が 84.82% の精度で他の大規模モデルをリードし、テストに参加したすべての医師を大きく引き離しました。 ChatGPT-4.0 の支援により、ほとんどの医師のパフォーマンスはさらに向上しました。平均精度は74.72%から75.81%に着実に向上しました。

一部の医師はテスト中にモデル内の誤解を招く可能性のある説明を特定するのに苦労し、その結果パフォーマンスが低下しましたが、全体的なデータは、 補助ツールとして、LLM は間違いなく、医師が糖尿病ケアの知識の習得と応用を向上させるのに効果的に役立ちます。  注目に値するのは、テストに参加したほぼすべての PCP がこの新しいトレーニング モデルを賞賛しました。彼らは、LLM が内部の一貫性、専門的なアドバイス、実用性の点で優れたパフォーマンスを発揮し、従来のトレーニング方法に新たな活力を注入し、驚くべき変化をもたらすと信じています。

この研究作業が2023年という早い時期に実施されたことは特に注目に値します。近年、国産の大規模言語モデルが雨後の筍のように次々と登場し、医療分野で大きな進歩を遂げています。その中で、現在期待度の高い国産汎用大規模言語モデルとして、DeepSeekが特に好成績を収めました。研究チームは、NCE-CPDC テストの質問に対する DeepSeek の回答の精度について厳密なテストを実施し、その結果は有望なものでした。DeepSeek の回答精度は 91.73% と高く、ChatGPT-4.0 の 90.98% をわずかに上回りました。

この成果を踏まえると、今後、国産の汎用大規模言語モデルと垂直分野に特化した大規模言語モデルの両方が大きな可能性を秘めていると信じるに足る十分な根拠がある。これらは、糖尿病などの慢性疾患の予防と管理において重要な役割を果たし、慢性疾患の診断と治療のデジタル変革を効果的に推進し、公衆衛生の保護に強力な科学技術力をもたらします。

主治医のトレーニングと糖尿病患者のケアにおける法学修士の将来展望

ヘルスケアトレーニングにおける法学修士課程の開発

糖尿病ケアから精神医学研修まで

医療研修における LLM の活用は、糖尿病ケアの分野に限定されません。  近年、国内外のいくつかの研究チームが、LLMとディープラーニング(DL)技術を組み合わせて、さまざまな医療専門分野向けのインテリジェントなトレーニングプラットフォームの構築に取り組んでいます。

上海交通大学X-LANCE研究所の呉夢悦教授のチームが構築したAMC(エージェントメンタルクリニック)を例に挙げると、このシステムは自動対話エージェントを通じて心理診断と治療のシナリオをシミュレートします。うつ病の初期スクリーニングを支援するだけでなく、研修中の精神科医を訓練し、彼らが正式にインターンシップのために学科に入る前に指導と支援を提供することもできます。このモデルは、精神科医が正式な臨床業務に入る前に役立つリハーサルとガイダンスを提供し、専門的なトレーニングの時間コストを大幅に短縮し、患者に質の高い初期診断アドバイスを提供します。


クリックして詳細レポートを表示: エージェント心理クリニックがオンラインになりました!上海交通大学のチームは、1.3K件のうつ病相談対話に基づいて、うつ病を診断できる大規模なモデル対話エージェントを構築した。

AMCシステム運用プロセス


DeepDR-LLM: 視覚と言語を統合した糖尿病診断・治療の新モデル

現在、大規模言語モデル (LLM) は医療情報処理や知識生成の分野で目覚ましい成果を上げており、強力な能力を発揮しています。膨大な医療情報を迅速に統合し、医療上の意思決定に豊富なデータサポートを提供し、患者の症状や病歴に基づいて予備的な診断推奨を生成することで、医療効率をある程度向上させることができます。

しかし、それでも、LLM は、医師特有の革新的精神、批判的思考、臨床的意思決定能力を完全に置き換えることはできません。  複雑な病態に直面する場合、経験と専門知識に基づく医師の総合的な判断、および患者の個々の違いに対する鋭い洞察力は、医療プロセスにおいて不可欠な重要な要素です。これを踏まえ、多くの研究者が LLM とディープラーニング (DL) 技術の統合パスの探求に積極的に取り組んでおり、臨床意思決定の精度をさらに向上させることに努めています。

この最先端分野の探求において、上海交通大学の盛斌教授のチームの成果は特に傑出している。 2024年7月チームが国際トップ機関と共同で開発した DeepDR-LLM モデルは、国際的に有名な学術誌「Nature Medicine」に掲載されました。この結果が発表されると、国際医学界に大きな衝撃が走り、多くの医療界の巨人から高い評価を受けました。精密医療の先駆者であるエリック・トポル教授、ウルフ医学賞受賞者のダニエル・J・ドラッカー教授、世界保健機関名誉事務局長で清華大学万科公衆衛生学院初代学長のマーガレット・チャン教授らが、この取り組みを全面的に評価した。

DeepDR-LLM システム アーキテクチャ

従来の糖尿病ケア研修を振り返ると、医師は専門能力を向上させるために、主に大量の書面による資料と長期にわたる臨床経験の蓄積に頼っています。この方法は効果的ですが、効率が低い、データの適時性に制限があるなどの問題があります。

DeepDR-LLM は、糖尿病の診断と治療のための世界初の統合視覚大規模言語モデル システムであり、糖尿病の診断と治療の分野における革新的なモデルです。LLM の強力な知識処理能力と DL の精密な画像解析技術を巧みに組み合わせ、機能面で大きな進歩を達成しました。このシステムは、糖尿病の診断と治療に関連するさまざまな専門的な質問に迅速かつ正確に回答できるだけでなく、眼底画像分析を通じて医師が糖尿病網膜症を診断するのを支援し、病気の早期段階で潜在的な病気のリスクを検出するのに役立ちます。

言及する価値があるのは、DeepDR-LLM システムはスケーラビリティも高く、DeepSeek とシームレスに接続できます。  MoE テクノロジーを使用した DeepSeek の推論機能を組み込むことで、パフォーマンスをさらに向上できます。一連の技術の反復と革新を経て、DeepDR-LLM システムは糖尿病ケアのトレーニングの質を大幅に向上させ、医師が最先端の知識と診断スキルをより効率的に習得できるようにしただけでなく、臨床診療に実用的で効率的な技術サポートを提供し、糖尿病患者により正確でタイムリーな診断と治療の希望をもたらしました。

詳細レポートを見るにはクリックしてください: 世界初!清華大学、上海交通大学などが共同で糖尿病の診断と治療のためのビジュアルビッグ言語モデルを構築し、ネイチャー誌に発表

糖尿病の予防と治療は世界保健分野における重要な課題であり、プライマリケア医の育成は医療レベル全体の向上に重要な鍵となります。公衆衛生を守る「最前線の警備員」として、現場の医師の教育の質は医療レベル全体の向上の中核であり、医療サービスの幅と深さに直接関係しています。

このような状況において、盛斌教授のチームは、多分野にわたる専門家チームとの緊密な協力と統合イノベーションを通じて、糖尿病ケアトレーニング分野における大規模言語モデル(LLM)の応用に焦点を当て、徹底的な調査を実施しました。この研究は大きな意義を持っています。高度な人工知能技術の助けを借りて医療トレーニングを最適化するための新しいアイデアを切り開くだけでなく、将来、さまざまな分野や領域にわたって医療用人工知能を幅広く応用するための強固な基盤を築くことになります。


現在、「AI+医師」の組み合わせは驚異的な力を発揮し、医療資源の配分パターンを徐々に変えつつあります。  この黄金の組み合わせは、両者の利点を巧みに組み合わせています。医師の人間的なケアと豊富な臨床経験が保持され、患者に温かさと信頼を与えます。同時に、AI は個人の認知的限界を超えた意思決定を医師にサポートし、診断と治療をより正確かつ効率的にします。 AIシステムが疲れを知らない医療アシスタントのようになり、最新の医学文献をリアルタイムで解析し、鑑別診断マップを自動的に生成し、同時に世界的な診断と治療のコンセンサスを更新できるようになると、現場の医師は時間と空間の制限を突破する「超能力」を与えられたかのようになり、遠隔地にいても最先端の医学知識と診断アイデアを得ることができるようになります。

この医療革命の影響は広範囲に及び、その価値は糖尿病の予防と治療のレベルそのものの向上をはるかに超えています。また、世界的な医療の公平性に対する中国独自のソリューションも提供します。DeepSeekやDeep DR-LLMなどのAIシステムの助けを借りて、地方の医師が学者と同じレベルの診断と治療のアドバイスを受けることができ、都市と地方の医療レベルの格差が大幅に縮まることを想像してみてください。都市の専門家も退屈で反復的な作業から解放され、複雑な症例の研究にもっとエネルギーを注ぐことができ、医学の継続的な発展が促進されます。このようなテクノロジーの力により、「重病の治療のために地方を離れる必要はない」というスローガンはもはや単なる達成不可能なスローガンではなく、徐々に現実のものとなりつつあり、人類の健康コミュニティの構築に強力でインテリジェントな勢いを注入しています。

将来に向けて

世界の医療環境が急速に変化する中、テクノロジーの活用は医療サービスの質を向上させる重要な「ツール」となっています。最先端技術と医療実践の深い融合は、初等医療教育における長年の多くの欠陥を効果的に補うだけでなく、医療人工知能の応用のためのより広い開発空間を切り開き、医療人工知能が新たな高みに到達するのに役立ちます。

LLM技術の継続的な最適化と臨床応用の継続的な拡大により、より刺激的な革新的な成果が定着し、大多数の患者に具体的な健康上の利益をもたらし、世界の医療システムの活発な発展に継続的な知恵と活力を注入し、科学技術の推進の下で医療産業がより輝かしく開花することが期待されます。