160w+ のラベルなし画像、3 次元での包括的な評価、Zhou Yukun らが網膜画像を使用してさまざまな全身疾患を予測する RETFound モデルを開発

特色图像

『ウエストワールド』の 3D バイオプリンティング、『スター・ウォーズ』のルーク・スカイウォーカーのロボットアーム、『マトリックス』の AI によって作成された仮想世界など、これらの SF 映画の豊かな想像力はすべて、人間の健康と健康へのニーズを明らかにしています。長寿への憧れ。

今では、映画にもよく登場するロボットアームや人工知能などの医療技術が現実のものとなっています。あなたの目をスキャンするだけで、医師があなたの心臓の健康状態を知り、パーキンソン病のリスクを予測できる未来を想像してみてください。サイエンスフィクションのように聞こえませんか?しかし、これは映画ではなく、実際に起こったことです。

著者: 喬喬

編集者:三陽

網膜は、人体の中で毛細血管網を直接観察できる唯一の部分であり、中枢神経系の一部でもあり、従来の医療用人工知能は、網膜画像から健康状態を特定することで目の病気を診断することがよくあります。

しかし、AI モデルの開発には専門家によってラベル付けされた大量のデータが必要であり、モデルは通常、特定の疾患タスクを対象としています。さまざまな臨床応用に一般化することはできません。

こうした状況に対し、ロンドン大学ユニバーシティ・カレッジ(UCL)とムアフィールズ眼科病院の博士課程候補者である周玉坤氏らは、網膜画像基本モデルRETFoundを提案した。自己教師あり学習を使用して、160 万を超えるラベルのない網膜画像をトレーニングします。眼疾患の診断・予後や全身疾患の予測などの業務に優れた性能を発揮します。

関連する論文がNatureに掲載されています。

紙を入手してください:

https://www.nature.com/articles/s41586-023-06555-x

論文全文の PDF を入手するには、公開アカウントの背景にある「Retina」に返信してください

RETFound モデルのトレーニングの詳細な説明

トレーニング データ: CFP+OCT 合計 164w+ 画像

RETFound の構築に使用されるデータ セットには、次の 2 つの部分が含まれています。

*CFP画像:合計 904,170 枚の写真のうち、90.2% は MEH-MIDAS からのもの、9.8% は Kaggle EyePACS33 からのものです

* OCT画像:合計 736,442 枚の画像のうち、85.2% は MEH-MIDAS からのもの、14.8% は他の参考文献からのものです。

MEH-MIDAS は遡及的なデータセットです。2000 年から 2022 年までにロンドンのムアフィールズ眼科病院に入院した糖尿病患者 37,401 人 (女性 16,429 人、男性 20,966 人、性別不明 6 人) の完全な眼画像記録が含まれています。

これらの患者の平均年齢は 64.5 歳で、標準偏差は 13.3 歳です。民族分布の多様性を考慮すると、患者には英国人 (13.7%)、インド人 (14.9%)、カリブ海人 (5.2%)、およびアフリカ人(3.9%)、その他の人種(37.9%)、および人種が明らかにされていない患者(24.4%)。

MEH-MIDAS データセットのデータは、topcon 3DOCT-2000SA (Topcon)、CLARUS (ZEISS)、Triton (Topcon) などのさまざまなイメージング機器から取得されます。

EyePACS データセット用のデータ イメージング デバイスには、Centervue DRS (Centervue)、Optovue iCam (Optovue)、Canon CR1/DGi/CR2 (Canon)、および Topcon NW (Topcon) が含まれます。

RET見つかりました:網膜画像の基本モデル

RETFound は網膜画像の基本モデルです。これは、自己教師あり学習を通じて 160 万枚のラベルのない網膜画像でトレーニングされており、他の明確にラベルが付けられた眼および全身疾患の検出タスクにも適用できます。

RETFound モデルの実装では、特別に構成されたマスクされたオートエンコーダーが使用されます。このマスクされたオートエンコーダーには 2 つの部分が含まれています。

* エンコーダー:24 個の Transformer ブロックとサイズ 1,024 の埋め込みベクトルを含むラージ ビジョン Transformer (ViT-large) を使用します。入力はマスクされていないパッチ (16×16) で、サイズ 1,024 の特徴ベクトルに投影されます。これらの 24 の Transformer ブロックには、特徴ベクトルを入力として受け入れて高レベルの特徴を生成する、マルチヘッド セルフ アテンションと多層パーセプトロンが含まれています。

* デコーダ:Small Vision Transformer (Vit-small) を使用します。これには、8 つの Transformer ブロックと 512 サイズの埋め込みベクトルが含まれています。抽出された高レベルの特徴にマスクされたダミー パッチがモデル入力として挿入され、線形投影後に画像パッチが再構築されます。

RETFound モデル アーキテクチャ図

モデルトレーニングの目標は、高度にマスクされたバージョンから網膜画像を再構築することです。CFP のマスク比は 0.75、OCT のマスク比は 0.85、バッチ サイズは 1,792 (GPU あたり 8 GPU × 224)、合計トレーニング エポックは 800、最初の 15 エポックは学習速度のウォームアップに使用されます。 (0から1×10に増加-3 。最終エポックのモデルの重みは、下流のタスクに適応するチェックポイントとして保存されます。

RETFound モデルのパフォーマンスを 3 次元で評価する

RETFound モデルのパフォーマンスとラベル付け効率を評価するために、研究者は RETFound モデルを他の 3 つの事前トレーニング済みモデルと比較しました。それらは、SL-ImageNet、SSL-ImageNet、および SSL-Retinal です。すべてのモデルには異なる事前トレーニング戦略がありますが、下流タスクのモデル アーキテクチャと調整プロセスは同じです。

1. 眼疾患の診断

研究者らは、8 つの公開データセットを使用して、さまざまな眼疾患や画像条件下での RETFound モデルのパフォーマンスを検証しました。

内部評価

上図は、眼疾患(糖尿病網膜症や緑内障など)の診断タスクにおいて、各データセットに調整モデルを適用し、保持した検査データに対して内部評価を行っている様子を示しています。

実験結果は次のことを示しています。RETFound はほとんどのデータ セットで最高のパフォーマンスを達成し、SL-ImageNet が 2 位にランクされました。

外部評価

外部評価として、研究者らは糖尿病性網膜症データセット(Kaggle APTOS-2019、IDRID、MESSIDOR-2)に対する RETFound モデルのパフォーマンスを評価しました。これらのデータセットはすべて、表にマークされている 5 段階の国際糖尿病性臨床網膜症重症度スケールに基づいています。相互評価は 3 つのデータセットにわたって実行されます。つまり、モデルは 1 つのデータセットで調整され、他のデータセットで評価されます。

実験結果は、RETFound モデルがすべての相互評価で最高のパフォーマンスを達成することを示しています。

2. 眼疾患の予後

研究者らはまた、AlzEyeのデータに基づいて、1年以内にもう一方の眼が滲出性加齢黄斑変性症(滲出型AMD)に移行する場合の予後もテストした。消す:

* 入力が CFP の場合、RETFound は最高のパフォーマンスを示し、AUROC は 0.862 (95% CI 0.86、0.865) に達し、比較グループよりも大幅に優れています。

* 入力が OCT の場合、RETFound のスコアが最も高く、AUROC 0.799 (95% CI 0.796、0.802) となり、SSL-Retinal よりも統計的に有意に高い AUROC を示します。 

実験結果は、RETFound モデルがすべてのタスクで最高のパフォーマンスを発揮することを示しています。

3. 全身疾患の予測

研究者らは、4 つの全身疾患を使用して、網膜画像と全身疾患の間の相関関係を予測する際の RETFound モデルのパフォーマンスを評価しました。

網膜画像を使用して全身疾患の 3 年発症率を予測するためのモデルのパフォーマンス

4つの全身疾患とは、心筋梗塞、心不全、虚血性脳卒中、パーキンソン病です。

実験結果は、RETFound モデルのパフォーマンスが他の比較モデルを上回り、4 つの疾患の予測において第 1 位にランクされることを示しています。

RETFound モデルの制限と課題

科学的研究プロセスでは、心臓病、心不全、脳卒中、パーキンソン病などの全身疾患の診断と予測における RETFound の役割が体系的に評価されていますが、今後の研究でさらに調査する必要がある制限と課題がまだいくつかあります。

まず、RETFound の開発に使用されるデータのほとんどは英国からのものであるため、将来的にグローバル網膜画像の導入後にモデルのパフォーマンスに影響を与える可能性を考慮する必要があります。モデルには、より多様でバランスのとれたデータを導入する必要があります。

第二に、この研究では CFP と OCT の下でのモデルのパフォーマンスを調査しましたが、しかし、CFPとOCTのマルチモーダル情報融合はまだ研究されておらず、これにより、RETFound のパフォーマンスがさらに向上する可能性があります。

最後に、臨床関連の情報をいくつか紹介します。人口統計や視力など、眼科研究に有効な共変量である可能性がありますが、SSL モデルにはまだ含まれていません。

現在、RETFound の開発者はこのモデルを公開しており、世界中の才能ある人材が RETFound を調整してトレーニングできることを期待しています。さまざまな患者集団や医療現場に適用できるようになります。

AI の助けにより、スマート医療の新しい未来が形になり始めています。

現在のところ、基本モデルとしての RETFound は、医療画像処理で成功した数少ないアプリケーションの 1 つです。モデルのパフォーマンスが向上し、医療専門家のラベル付けの負担が軽減されると同時に、医療 AI の実用化にも注目が集まります。

現在、医療業界はデジタルインテリジェンスの爆発的な時代を迎えており、複数の産業資本が医療業界へのAI技術の応用を促進するために業界に参入しています。

中国ビジネス産業研究院の統計によると、AI+医療は2020年の人工知能市場の18.9%を占め、市場規模は66億2,500万元となった。 IDC の統計によると、人工知能アプリケーション市場の総額は 2025 年までに 1,270 億米ドルに達し、そのうち医療産業が市場規模の 5 分の 1 を占めると予想されています。基本層から応用層まで、医療 AI の広大な市場には大きな可能性があります。

出典:中国経済産業研究院

海外市場に目を向けると、医療AIの応用が続々と導入されています。今年 3 月、Microsoft 傘下の臨床文書ソフトウェア会社 Nuance は、最新の音声文字起こしアプリケーションに GPT4 を追加しました。4 月には、Microsoft と Epic が、医療スタッフの対応を支援するために OpenAI の GPT-4 を医療分野に導入すると発表しました。患者の情報と医療記録の分析。同月、Google は大規模な医療モデル Med-PaLM 2 をユーザー ベースにリリースすると発表しました。

国内では、iFlytek と SenseTime が積極的に導入し、加速したペースで業界アプリケーションを探索しています。 AI + 医療はすでに世界のテクノロジー コミュニティで共有されるトレンドとなっています。

業界関係者は、AI の大規模モデルの適用により、医療業界の問題点が大幅に軽減されると期待されており、適用シナリオがさらに深化することで、医療業界におけるインテリジェンスの時代が正式に始まり、長期にわたると予想されています。業界にとってのチャンスは非常に大きいです。

参考リンク:

[1]https://www.nature.com/articles/s41586-023-06555-x

[2]https://www.nature.com/articles/d41586-023-02881-2