ECCV2024に選出されました!浙江大学とマイクロソフト リサーチ アジアは、医療データの異質性の壁を打ち破るための統合医療画像事前トレーニング フレームワーク UniMedI を提案します

AI 分野の研究者は、特定の条件下で AI が人間のような応答能力を備え、それによって人間に代わって特定のタスクを効率的に実行できるようにすることを絶え間なく追求しています。医療画像と人工知能の交差点と同様に、視覚言語の事前トレーニング (Visual-Language Pre-training、VLP) に基づくディープ モデルは、次の理由により、多数の画像および対応するテキスト データ セットで事前トレーニングできます。そして、新しい画像から関連する特徴を自動的に抽出する方法を学び、時間と労力を要する手動のアノテーション要件を効率的に解決できます。
しかし、VLPは医療分野で一定の成功を収めているものの、さらに適用するデータ規模を拡大するには依然として多くの課題に直面しています。
まず、既存のモデル トレーニングのほとんどは主に単一モダリティ データ (主に X 線フィルムなどの 2D 画像) に基づいており、マルチモーダル画像 (2D と 3D を含む) を含む現実のデータとは異なります。第二に、異なるモダリティの医療画像の固有の異質性も、それらの効果的な連携と統合を妨げます。さらに、医療画像の異なるモダリティのデータにも次元の違いがあり、ペアのデータが存在しません。したがって、統合モデルを構築し、これらのさまざまなデータ形式を共通空間に効果的にマッピングして共同学習を実現する方法は、非常に困難なテーマとなっています。
上記の問題を解決するために、浙江大学の Hu Haoji 氏のチームと Microsoft Research Asia の Qiu Lili 氏のチームは、新しい統合医療画像事前トレーニング フレームワーク UniMedI を提案しました。診断レポートを共通の意味空間として使用して、さまざまなモダリティの医療画像の統一表現を作成します。さらに、テキストに基づいて「疑似ペア」を作成するテクノロジーも導入されています。UniMedI は、複雑な 3D 画像からテキストに関連する 2D スライスを選択でき、これらのスライスは 2D と 3D データを橋渡しする擬似ペアとして機能し、さまざまな医用画像モダリティ間の一貫性を強化し、医用マルチモーダル画像を効果的に統合できます。
関連する研究結果は「言語ガイド付き共通意味空間における統合医療画像事前トレーニング」というタイトルで、コンピュータービジョンと機械学習の分野のトップカンファレンスであるECCV 2024に含まれた。
サミットの詳細については、以下のリンクをクリックしてください。
研究のハイライト:
* 実験では、UniMedI は複数の異なるデータセット上の 2D および 3D 画像で良好なパフォーマンスを示し、画像の分類、セグメンテーション、検索などの幅広い医療タスクで優れた性能を発揮しました。
※UniMedIは2D画像と3D画像を一元的に収集でき、医療現場のデータ不足の問題を解決します

用紙のアドレス:
https://eccv.ecva.net/virtual/2024/poster/1165
公式アカウントをフォローし、バックグラウンドで「医用画像事前トレーニング フレームワーク」に返信すると、全文の PDF が入手できます
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
実際の医療データ、効果的な検証フレームワーク
UniMedI フレームワークの事前トレーニングに使用されるデータは、2D X 線データ セット MIMIC-CXR 2.0.0 および 3D CT スキャン データ セット BIMCV の JPG バージョンから取得されます。
その中で、研究者らは、正面画像のみを使用する下流のタスクに合わせて、2D データセットを前処理して側面画像をすべて削除しました。同時に、データセットの完全性を維持するために、2D および 3D データセットに関する 3 文未満の短いレポートは実験では使用されませんでした。
画像サイズは2D画像が224×224、3D画像が128×128×32となります。
研究チームは、8 台の Tesla V100 GPU でバッチ サイズ 144 で UniMedI フレームワークを 50 回事前トレーニングしました。
実験的評価では、チームはまず 2D および 3D データセットに対して医用画像分類を実行しました。代表的な 2D データ セットは 3 つあります。CheXpert には 191,229 枚の正面胸部 X 線写真が含まれており、RSNA 肺炎ステージ 2 バージョンには、約 29,700 枚の正面胸部 X 線写真と 2,800 人を超える患者からの 16,490 枚の陽性の COVID 写真が含まれています。 。
次にチームは 2 つの代表的な 3D データセットを分類しました。それぞれCC-CCIIとLUNA 16です。その中で、CC-CCII は Clean-CC-CCII バージョンを使用します。これには、LIDC-IDRI に基づく 2,698 人の患者の 3,993 スキャンからの 340,190 のスライスが含まれており、注釈付き 888 の CT スキャンが含まれています。実験では、スライス厚が 3mm を超える CT スキャンを LIDC-IDRI データベースから削除しました。
レイヤーごとのコラボレーション メカニズムがデータの壁を打ち破る
本研究で提案するUniMedIは、医用画像とそのテキストレポートをそれぞれVision EncoderとText Encoderという2つのエンコーダでエンコードし、VL(Vision-Language)を通じて比較学習するフレームワークです。 UniMedI は、2D および 3D 画像を統合された方法で効果的に収集できる点でユニークであり、医療分野におけるデータ不足の問題を解決します。 UniMedI の全体的な枠組みは、次の図の左側に示されています。

実験では、ビジュアル エンコーダは、主に 2D および 3D ビジュアル データの共通特徴空間内の表現を抽出する ViT-B/16 を使用します。テキスト エンコーダは、テキスト特徴のエンコードに使用される BioClinicalBERT を使用します。 2Dデータと3Dデータの両方に共通です。
存在しないペアの 2D および 3D 画像データという課題を克服するため。研究チームは、UniMedI に「疑似ペアリング」を作成する方法を導入しました。この方法の設計は、新しい言語ガイドによる注意スライス選択戦略に基づいています。
たとえば、入力が 3D 画像の場合、その中からレポートに最も関連性の高い 2D スライスの一部を抽出し、選択したスライスを 2D 画像とみなし、2D-3D 画像の疑似ペア関係を形成します。 。その後、選択した 2D スライスを元の 3D 画像とともにネットワークに入力することで、レポート (Report) との関係を共同学習し、最終的に統一された特徴空間を形成できます。入力が2D画像の場合、スライス選択処理は省略される。
その後、ビジュアル エンコーダーがすべてのマルチモーダル画像 (元の 2D および 3D 画像と選択された 2D スライスを含む) を表現空間にマッピングします。このビジュアル エンコーダには、2D イメージと 3D 画像に個別のタガー T があります。2DとT3D、および統合を強化するための共有バックボーン Ev 。学習損失 Lᵥₗ を対比することにより、ビジュアル エンコーダーとテキスト エンコーダー Eₗ を含むモデルが VLP でエンドツーエンドで学習されます。このプロセスでは、2D イメージと 3D イメージの両方を、レポート内の言語情報によって管理された共通の意味空間にエンコードできます。
医用画像自体のマルチモーダルデータと一部の共有された公開情報を最大限に活用するために、この研究ではマスキングと復元という補助的なタスク設計も導入されており、自己蒸留手法が採用されています。タスクを完了するために使用されます。これにより、2D および 3D 画像トークンが相互に通信できるようになり、次元を超えた相互作用とマルチモーダル画像の統合が強化されます。
UniMedI のハイライトの 1 つは、注意スライス選択戦略と VL 対照学習の相乗効果であることは注目に値します。
* 一方では、VL 対照学習により、視覚的な CLS トークンに直接適用される言語監視が可能になります。このトークンにはレポート内の重要な情報が含まれているため、ビジュアル CLS トークンのアテンション ウェイトは 2D スライス選択の基礎として機能し、レポートからの監視情報を伝達し、3D 特徴とともに結合特徴空間を構築します。
* 一方で、スライスを慎重に選択すると、ペアのデータがない場合でも、2D と 3D の特徴空間をより適切に統合できます。この共通スペースにより、医療画像とレポート間の詳細が強調され、このようにして画像とレポート間の整合性が促進されます。これら 2 つの設計は、マルチモーダル イメージの表現を組み合わせて、同時にレポート表現空間に近づけ、共通の意味論的空間の構築において 1 プラス 1 が 2 よりも大きい効果を実現します。
マルチアングル実験評価、UniMissに追いつく性能
UniMedI の包括的かつ効果的な評価を行うために、本研究では、マルチアングル観察を設定し、さまざまな医療 VLP 手法との比較分析を実施して、UniMedI の性能と有効性を検証しました。
まず研究チームは、UniMedI を ConVIRT、GLoRIA、MGCA、LOVT、PRIOR などの X 線およびそれに対応する医療レポートに合わせた手法と比較しました。次に、UniMedI をいくつかの 2D および 3D と比較しました。 UniMiss や Joint などの共同学習メソッド。
線形分類の実験結果は次のことを示しています。2D 医用画像分類実験結果 (下図参照) では、ViT をビジュアルエンコーダとして使用した最先端の MGCA (ViT-b/16) 手法と比較して、UniMedI は 3 の最高のパフォーマンスを達成しました。 2D 医用画像の分類。
※線形分類実験:UniMedIの表現能力を評価するために使用
これと比較すると、CheXpert データセット上の UniMedI の AUROC はそれぞれ +0.6%、+0.6%、+0.8% 増加しました。RSNA データセット上の AUROC はそれぞれ +0.9%、+0.5%、+0.7% 増加しました。 COVID データでは、セットの AUROC はそれぞれ +5.5%、+7.6%、+2.3% 増加します。実験結果は、提案されたアルゴリズムの有効性を示しています。

3D医用画像分類の実験結果(下図参照)では、最先端のUniMissと比較して、UniMedIはCC-で+22.6%、+2.0%、+0.8%のACCゲインを向上させました。それぞれ CCII データセット。これらのデータはすべて、UniMedI のデータ効率と有効性を検証します。

一方、完全なトレーニング データを使用して完全なビジュアル エンコーダを微調整すると、UniMedI は CC-CCII と LUNA の両方の複数の 3D 医用画像データセットで他の方法よりも優れたパフォーマンスを発揮します。
以下の図に示すように、CC-CCII データセット上の UniMedI の ACC 値は 93.8% であり、LUNA2016-v2 データセット上の ACC 値は 95.9% です。これは、2D および 3D 医用画像分類タスクにおけるその顕著な一般化能力を示しており、このフレームワークが 3D CT 画像の普遍的な特徴を抽出する能力を持っていることを示しています。

医療セマンティックセグメンテーションの実験結果は次のことを示しています。2D 医療セマンティック セグメンテーションの結果では、UniMedI は現在の最先端の MGCA アルゴリズムよりも大幅に優れており、1% トレーニング データを使用すると、UniMedI の Dice は 67.8% に達します。 3D 医療セマンティック セグメンテーションの結果では、BCV データ セットの UniMiss と比較して、限定ラベル可用性が 40% と 100% の場合、下図に示すように、精度がそれぞれ 0.6% と 0.4% 向上しました。
* 医療セマンティック セグメンテーション実験: RSNA 肺炎正面胸部 X 線および BCV データ セット (50 の CT スキャンを含む) を使用して、セグメンテーション パフォーマンスを評価するために使用されます。

これらの結果は、意味のある特徴を抽出し、限られたアノテーション データを効果的に利用する点で UniMedI が非常に優れていることを証明し、セマンティック セグメンテーション タスクにローカル表現を利用する能力が高いことを示しています。
テクノロジーは VLP と医療画像の絆を深めるのに役立ちます
視覚言語事前トレーニング モデルは、特に医療画像の分野において、コンピューター ビジョンと自然言語処理の間の重要な架け橋となりつつあり、大規模な視覚データと言語データの事前トレーニングを通じて、複雑な医療画像間の複雑さを簡単に捉えることができます。とテキストの関係を構築し、医師の画像診断を支援したり、企業の医薬品研究開発を支援したり、インテリジェントな医療画像管理を実装したりできます。
この研究は最高の国際会議に選ばれ、人工知能と医療画像の交差点における VLP に含まれる巨大な想像力の空間が再び証明されました。実際、今回浙江大学とマイクロソフト リサーチ アジアの二大チームが提携したほか、すでに多くの研究室がこの分野に取り組んでいる。
たとえば、上記の研究で言及された高度な手法の 1 つである UniMiss と、その関連結果は、オーストラリアのアデレード大学コンピュータ サイエンス学部とノースウェスタン工科大学のチームによって、早ければ 2022 年に発表されました。同年、タイトル「UniMiss: 次元の壁を突破して学ぶ普遍的な医療の自己監視」が ECCV に掲載されました。
用紙のアドレス:
https://dl.acm.org/doi/abs/10.1007/978-3-031-19803-8_33
この研究では、著者は 3D データの不足を補うために多数の 2D 画像を使用することを提唱し、UniMiss と呼ばれる一般的な医療自己教師あり表現学習フレームワークの確立を目指しています。実験結果は、ImageNet の事前トレーニングや他の高度な SSL (自己教師あり学習) の敵と比較して、UniMiss が 2D/3D 医療画像分析タスクにおいて、セグメンテーションと分類の両方で大きな利点を達成できることを示しています。満足。

それだけでなく、今年7月にチームはUniMissに関する新たな調査を実施し、UniMiss+を提案した。現在、関連する結果は、「UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data」というタイトルで、有名な国際ジャーナル IEEE Transactions on Pattern Analysis and Machine Intelligence に掲載されています。
用紙のアドレス:
https://ieeexplore.ieee.org/document/10617802

最新の研究では、チームは UniMiss+ にデジタル再構成 X 線写真技術を導入し、CT スキャンからの X 線画像をシミュレートし、ペアになった CT と X 線画像データへのアクセスを提供しました。前世代のUniMissと比較して、大幅に改善されました。
全体として、人工知能と医療画像の統合に関する科学研究はまだ進行中です。やがて、これらの結果はアプリケーションに変換され、実際の医療シナリオに実装され、医療スタッフや患者の利益となる新しいツールとなるでしょう。 、および企業。