HyperAI超神経

CVPR 2025に選ばれたHITチームは、ギガピクセルの病理学フルスライス画像を迅速に処理するための階層蒸留マルチインスタンス学習フレームワークHDMLを提案しました。

特色图像

病理画像には豊富な表現型情報が含まれており、病理画像に基づく病理診断はがん診断の「ゴールドスタンダード」として広く認められています。その中で、Whole Slide Image (WSI) は、病理組織切片を最大 10 億ピクセルのデジタル画像に変換する、Whole Slide デジタルスキャン技術を使用した高解像度のデジタル病理画像です。高解像度、パノラマ表示、大容量データなどが特徴です。これは現在の医療診断および医療研究の主流の方法です。

マルチインスタンス学習 (MIL) は、WSI を分析するための主な方法の 1 つであり、腫瘍の検出、組織微小環境の定量化、生存予測などのタスクで優れたパフォーマンスを実現しています。しかし、WSI には膨大な量の情報が含まれているため、MIL による推論には高コストという課題があります。 1 つ目は、データの前処理の問題です。 WSI の切り取りと特徴抽出のプロセスは非常に時間がかかります。 2 つ目は、冗長パッチの問題です。 WSI には通常、バッグ レベルの分類に最も貢献しない冗長パッチが含まれます。上記の問題を解決する最も簡単な方法は、注目スコアを通じて無関係な例を排除することです。しかし、既存の MIL アルゴリズムでは、注目度スコアを計算する前に、切り取られたすべてのブロックの特徴を抽出する必要があり、間違いなく「鶏が先か卵が先か」という問題が発生します。

上記の分析に基づき、中国ハルビン工業大学の江俊軍教授、江奎准教授、ハルビン工業大学(深圳)の張勇兵教授らは、推論時間を短縮できる革新的なソリューションを実証しました。チームは、無関係なパッチを迅速に識別し、高速かつ正確な分類を実現することを目的とした、階層的蒸留マルチインスタンス学習フレームワーク (HDMIL) を提案しました。実験結果によると、HDMIL は、以前の高度な方法と比較して、3 つの公開データセットで推論時間を 28.6% 短縮しました。

関連する成果は、「階層的蒸留マルチインスタンス学習による高速かつ正確なギガピクセル病理画像分類」というタイトルで公開され、CVPR 2025 に選出されました。

研究のハイライト:

* 提案された方法は、推論プロセスを高速化すると同時に分類性能も向上させ、従来の方法では達成できなかった速度と性能のバランスを実現し、マルチインスタンス分類に関する将来の研究にインスピレーションを与えます。

*この方法は、チェビシェフ多項式に基づくコルモゴロフ・アーノルド分類器を初めて実証し、デジタル病理学に適用して分類性能を大幅に向上させました。

* 提案手法は多数の実験によって検証されており、3つの公開データセットで信頼性が高く効果的な検証結果を達成しています。

用紙のアドレス:

https://arxiv.org/abs/2502.21130

データセット: 3つの主要な公開データセットが有効性を検証

実験の有効性を確認するために、研究者らは 3 つの公開データセットで提案手法の有効性を評価しました。

* Camelyon16データセットは乳がんのリンパ節転移検出に使用され、トレーニングセットと検証セットの比率は公式トレーニングセット9:1に従って分割され、公式テストセットはすべてのフォールドにわたるテストに使用されます。

*肺がんの分類にはTCGA-NSCLCデータセットが使用されました。データセットは、8:1:1 の比率でトレーニング セット、検証セット、テスト セットに分割されました。

*乳がんのサブタイプ分類にTCGA-BRCAデータセットを使用する場合、トレーニングセット、検証セット、テストセットの比率も8:1:1です。

注目すべきは、すべての WSI が CLAM によって開発されたツールを使用して前処理され、実験は 10 倍のモンテカルロ相互検証に従って行われたことです。

モデルアーキテクチャ: 2段階のアーキテクチャはトレーニングと推論を伴い、革新的なコルモゴロフ・アーノルド分類器を導入しています。

同研究所が提案する HDMIL フレームワークは、トレーニングと推論の 2 つの部分から構成されています。このフレームワークには、2 つの主要コンポーネントがあります。1 つは、高解像度の WSI を分類し、バッグ レベルの分類に関連しないインスタンスを識別するように設計された動的マルチインスタンス ネットワーク (DMIN) です。もう 1 つは、低解像度の WSI 向けに特別に調整されたネットワークである軽量インスタンス プレスクリーニング ネットワーク (LIPN) です。

訓練の前に、研究者らはまず病理学的 WSI の標準的な手順に従って入力データを前処理しました。このデータセットはスライド ラベル付きの S WSI ピラミッドで構成されており、各 Xᵢ には高解像度 (20 倍) と低解像度 (1.25 倍) の WSI のペアが含まれており、それぞれ Xᵢ,ₕᵣ と Xᵢ,ₗᵣ と表記されています。

HDMIL 全体フレームワーク

具体的には、図 a は次の図に示すようにトレーニング フェーズを示しています。研究者らはまず自己蒸留トレーニング戦略を採用し、高解像度の WSI (Xᵢ,ₕᵣ) を使用して DMIN をトレーニングし、バッグレベルの分類を実行して無関係な領域を示すことができるようにしました。 DMIN は WSI 内の無関係な領域を正常に識別しましたが、推論速度は向上しませんでした。 DIMN は、どのインスタンスを削除するかを決定するために、特徴抽出器によって生成されたすべてのパッチの特徴を使用する必要があり、パッチ単位の特徴抽出は、実際には WSI 推論速度のボトルネックを打破するための鍵となるからです。

トレーニングフェーズ

そこで研究者らは DMIN を凍結し、その結果得られたマスクを使用して LIPN を抽出しました。前述のように、LIPN は低解像度の WSI 向けにカスタマイズされた軽量インスタンス事前スクリーニング ネットワークです。これは、低解像度の WSI (Xᵢ,ₗᵣ) を使用したクロス蒸留によってトレーニングされ、低解像度の WSI 内の無関係な領域をすばやく識別し、それによって高解像度の WSI 内の無関係なパッチを間接的に示すことができます。

具体的な実装としては、研究者らは特徴抽出器として、ImageNetで事前トレーニングされたモデルとして広く使用されているResNet-50を採用し、事前スクリーニングネットワークLIPNにはMobileNetV4の軽量版を使用しました。上記の手順により、研究者は非常に低い計算コストで各領域のバイナリ重要性(重要かそうでないか)の判断を達成しました。

以下に示すように、図cは高解像度WSI(Xᵢ、ₕᵣ)でのDMINの自己蒸留トレーニングを示しています。 DMIN は、投影モジュール、注意モジュール、教師ブランチ、生徒ブランチ、CKA 分類器の 5 つのモジュールで構成されていることがわかります。

DMINの自己蒸留トレーニング

具体的には、高解像度の WSI (Xᵢ,ₕᵣ) から抽出されたすべてのパッチは、まず事前学習済みの特徴抽出器に入力され、例レベルの特徴 Iᵢ,ₕᵣ のセットが生成されます。次に、この特徴セット Iᵢ,ₕᵣ は投影モジュールに入力され、次元削減されて新しい特徴セット Fᵢ,ₕᵣ が生成されます。次に、この特徴セット Fᵢ,ₕᵣ は注目モジュールに入力され、正規化されていない注目スコアが計算されます。

教師ブランチでは、各クラスの注意行列を使用して、縮小された Fᵢ,ₕᵣ に線形重み付けが行われ、最終的な分類のためのバッグ レベルの表現が生成されます。学生ブランチでは、注目度スコアの大きい例のサブセットのみがバッグレベルの表現を計算するために使用され、研究者は、そのバッグレベルの表現がすべてのインスタンスを使用して教師ブランチで取得された表現と可能な限り一致するように制約も課しています。この方法により、バッグレベルの分類にとってより重要なインスタンスにさらに注意を払い、無関係なインスタンスを除外するための注意モジュールが実装されます。同時に、最適化プロセスでは、微分不可能な問題の発生を回避するために、エンドツーエンドのトレーニングで注目度スコアが高いインスタンスを選択的に使用する Gumbel トリックも採用しています。

最後に、MIL 分類器の機能を強化するために、研究者らは分類器で固定の活性化関数を使用する代わりに、コルモゴロフ・アーノルド ネットワークを使用して非線形活性化関数を学習することを提案しました。そして、ハイブリッド損失関数を設計することで、研究者は DMIN の 3 つのトレーニング目標を達成しました。 1つ目は、教師ブランチがXᵢ,ₕᵣを正しく分類できることです。 2 つ目は、生徒ブランチの一部のインスタンスを使用した分類結果が、教師ブランチのすべてのインスタンスを使用した分類結果と一致する可能性があることです。 3 つ目は、選択されたインスタンスの割合を制御可能であることです。

図 b は、以下に示すように推論段階を示しています。具体的なプロセスは 3 つのステップに分けられます。最初のステップでは、低解像度の WSI (Xᵢ,ₗᵣ) 内のすべてのパッチをトリミングし、合計 Nᵢ にします。 2 番目のステップでは、これらのパッチを LIPN に入力して分類関連領域を識別し、Mᵢ,ₗᵣ を生成します。 3番目のステップでは、Mᵢ、ₗᵣに基づいてXᵢ、ₕᵣ内の対応するパッチを選択的に切り取り、残りのパッチを特徴抽出器とDMINに入力し、最後にクロスカテゴリの学生ブランチを通じて個別に計算して、最終的な分類結果を生成します。

推論フェーズ

研究結果:「簡易」HDMILは既存の高度な方法よりも優れている

研究者らは、Camelyon16、TCGA-NSCLC、TCGA-BRCAの3つのデータセットに基づいて、HDMILの分類パフォーマンスを、Max-pooling、Mean-Pooling、ABMIL、CLAMSB、CLAMMB、DSMIL、TransMIL、DTFDAFS、DTFDMAS、S4MIL、MambaMILを含む11のMIL手法と比較しました。

研究者らが HDMIL の異なる構成、つまり HDMIL† と HDMIL をテストしたことは注目に値します。前者は、LIPN によるインスタンスの事前スクリーニングを行わずに、DMIN のみを推論に使用することを意味します。具体的な結果は下の図に示されています。

HDMILと既存のMIL方式の比較

HDMIL† と HDMIL はどちらも、3 つのデータセットで既存の方法よりも一貫して優れたテスト結果を示していることがわかります。たとえば、Camelyon16 データセットでは、HDMIL は 90.88% の AUC と 88.61% の精度を達成しました。これは、以前の最良の方法よりもそれぞれ 3.13% と 3.18% 高い値です。

同時に、データセットが十分に大きい場合、HDML は分類パフォーマンスに影響を与えずに速度を向上させます。例えば、TCGA-NSCLC と TCGA-BRCA にはどちらも約 1,000 個の WSI が含まれていますが、HDML† と HDML のテスト パフォーマンスの差は大きくなく、HDML が推論速度と分類パフォーマンスの優れたバランスを実現していることがわかります。

さらに、HDMIL† は処理時間では既存の他の方法と同等ですが、HDMIL† は他の方法と同じ数の高解像度パッチを処理する必要があるため、すべての方法を大幅に上回っています。 HDMIL は LIPN を通じてデータ処理にかかる時間を短縮し、3 つのデータセットで他の方法と比較して推論にかかる時間を大幅に短縮し、それぞれ 28.6%、21.8%、7.2% の速度向上を達成しました。

各コンポーネントの影響を分析するために、研究者はアブレーション実験を実施し、下の図に示すように、HDML の各モジュールが分類結果に与える影響をさらに説明しました。研究結果によると、従来の線形層ベースの分類器を提案された CKA 分類器に置き換え、自己蒸留を DMIN トレーニングに組み込むと、分類パフォーマンスが大幅に向上することが示されています。

HDMILの各コンポーネントが分類パフォーマンスに与える影響

一般的に、HDMIL の提案は間違いなく新しいアイデアであり、試みです。そのアイデアの実現可能性は多数の実験を通じて証明されました。 MIL法を用いて病理画像、特にWSIを解析する新しい方法を提供し、デジタル病理学の活発な発展を加速します。

AIの力でデジタル病理学が発展

近年、デジタル病理学の活発な発展は医学と生物学の新たな進歩をもたらし、特に人類最大の敵の一つである癌との闘いにおいて重要な役割を果たしています。 HDMIL の提案は、ハルビン工科大学チームによるこの分野における最初の試みではないことは言及する価値がある。

昨年の CVPR 2024 には、「弱教師学習による組織学的画像の仮想免疫組織化学染色」というタイトルの研究が含まれていました。この記事では、仮想免疫組織化学 (IHC) 染色のための Confusion-GAN と呼ばれる弱教師あり学習法について言及しました。この方法では、H&E 画像を IHC 画像に変換することができ、IHC 染色における従来の方法の煩雑さとコストの問題を解決できます。

論文アドレス: https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Virtual_Immunohistochemistry_Staining_for_Histological_Images_Assisted_by_Weakly-supervised_Learning_CVPR_2024_paper.pdf

この論文は、前述の研究と同じ著者に加え、江俊軍教授と張勇兵教授も共著しており、ハルビン工業大学のこの分野における深い研鑽と蓄積をさらに裏付けています。

もちろん、この論文の責任著者である江俊軍教授と張勇兵教授も特筆に値します。江俊軍教授は現在、ハルビン工業大学コンピュータサイエンス学院の終身教授および博士課程の指導者であり、人工知能学院の副学部長、インテリジェントインターフェースおよびヒューマンコンピュータインタラクション研究センターの副所長を務めています。彼は国家青年人材育成計画に選ばれており、ハルビン工業大学の「若手科学者スタジオ」の学術リーダーでもあります。彼の研究分野には、画像処理、コンピューター ビジョン、ディープラーニング (研究は大規模モデルと画像処理、マルチモーダル自律無人システム、生成型人工知能などに焦点を当てています) などの分野が含まれます。

張勇兵教授は現在、ハルビン工業大学コンピュータサイエンス学院の教授および博士課程の指導者です。彼の主な研究分野には、コンピュータービジョン、生物医学画像処理、コンピューターイメージングが含まれます。さらに、張永兵教授は複数の役職も務めています。中国コンピューター学会、中国人工知能学会、IEEE、SPIE、OSA など、国内外の多くの著名な協会の会員です。トップクラスの国際人工知能会議で 100 本以上の論文を発表し、50 件以上の発明特許を取得しています。現在、張永兵教授の主な研究は、生命医学と医療健康の分野における人工知能とコンピュータービジョンの応用を探求することです。

ハルビン工業大学以外にも、ますます多くの大学や研究所がデジタル病理学の分野に注目し、独自の努力を続けています。たとえば、オランダのアイントホーフェン工科大学のチームは、「デジタル病理学のための空間認識型マルチインスタンス学習フレームワーク」と題した研究を発表し、Global ABMIL (GABMIL) と呼ばれるモデルを提案しました。このモデルは、従来の ABMIL モデルの拡張バージョンです。空間情報混合モジュールを通じて空間情報を埋め込みベクトルに統合し、ABMIL ネットワークを使用してスライス ラベルを予測することで、病理診断における重要な要素である画像ブロック間の空間相互作用情報を無視することが多い従来の MIL 法を回避できます。

論文アドレス: https://arxiv.org/abs/2504.17379

つまり、人工知能と伝統医学の統合は不可逆的であり、誰もがその恩恵を受けることができるのです。人工知能と医療の相互統合の応用を享受する機会を私たちに与えてくれるのは、科学の最前線に身を置くこうした「探検家」たちであることは否定できません。もちろん、長期にわたる深い耕作により、ハルビン工業大学のチームがこの地に根を下ろし続け、それによって分野全体の発展が加速すると信じる理由があります。