2023 年 4 月、Meta Company は「すべてをセグメント化できる」と主張する Segment Anything Model (SAM) をリリースしました。これはコンピューター ビジョンの分野全体を揺るがす大ヒット作のようなもので、多くの人から従来の概念を覆す研究とさえみなされました。履歴書のタスク。
1年以上経って、Meta が再びマイルストーン アップデートをリリース - SAM 2 は、静止画像と動的なビデオ コンテンツに対してリアルタイムでプロンプト表示可能なオブジェクト セグメンテーションを提供し、画像とビデオのセグメンテーション機能を同じシステムに統合します。この強力な強みにより、業界はさまざまな分野、特に医療画像セグメンテーションの分野で SAM の応用の探求を加速していると考えられます。多くの研究室や学術研究チームは、SAM が医療画像セグメンテーションに最適であると考えています。モデル。
いわゆる医用画像セグメンテーションとは、医用画像の中から特別な意味を持つ部分を切り出し、関連する特徴を抽出することで、臨床診断や病理研究などに信頼できる基礎を提供するものです。
近年、ディープラーニング技術の継続的な進歩により、ニューラルネットワークモデルに基づくセグメンテーションが徐々に医療画像セグメンテーションの主流の手法となり、効率と精度が大幅に向上しました。しかし、医療画像セグメンテーションの分野の特殊性を考慮すると、解決する必要のある課題がまだいくつかあります。
1 つ目はモデルの一般化です。特定のターゲット (臓器や組織など) に対してトレーニングされたモデルを他のターゲットに適応させるのは難しいため、多くの場合、対応するモデルを異なるセグメンテーション ターゲットに合わせて再開発する必要があります。2 つ目はデータの違いです。コンピューター ビジョン用に開発された標準的な深層学習フレームワークの多くは 2D 画像用に設計されていますが、医療画像では通常、データは CT、MRI、超音波画像などの 3D 形式であり、この違いがモデルのトレーニングに大きな課題を引き起こすことは間違いありません。
上記の問題を解決するために、オックスフォード大学のチームは、Medical SAM 2 (MedSAM-2) と呼ばれる医療画像セグメンテーション モデルを開発しました。このモデルは SAM 2 フレームワークに基づいて設計されており、医療画像をビデオとして処理します。3D 医療画像セグメンテーション タスクを適切に実行するだけでなく、新しい単一キュー セグメンテーション機能も解放します。ユーザーは、新しい特定のオブジェクトに対するヒントを提供するだけで済み、後続の画像内の類似オブジェクトのセグメンテーションは、追加の入力なしでモデルによって自動的に完了されます。
関連する論文と結果は現在、「Medical SAM 2: Segment Anything Model 2 によるビデオとしての医療画像のセグメント化」というタイトルで、プレプリント プラットフォーム arXiv で公開されています。
研究のハイライト:
※当チームはSAM 2をベースとした医用画像セグメンテーションモデルMedSAM-2の立ち上げを主導
* チームは、斬新な「ビデオとしての医療画像」コンセプトを採用し、「シングル プロンプト セグメンテーション機能」のロックを解除しました。
用紙のアドレス:
https://arxiv.org/pdf/2408.00874
SA-V ビデオ セグメンテーション データ セットは直接ダウンロードされます。
Medical SAM 2 の医療セグメンテーション データセットの例:
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
自動的に生成されたマスク ヒントを使用して、チームは 5 つの異なる医療画像セグメンテーション データセットで実験を実施しました。これらのデータセットは次の 2 つのカテゴリに分類されました。
最初のカテゴリは、一般的なセグメンテーションのパフォーマンスを評価することを目的としています。チームは腹部の多臓器セグメンテーション タスクを選択し、12 の解剖学的構造を含む BTCV データ セットを選択しました。
2 番目のカテゴリは、さまざまな画像モダリティにおけるモデルの一般化能力を評価することを目的としています。研究者らは、REFUGE2 データセットを使用して眼底視神経乳頭 (Optic disc) と視神経乳頭 (Optic Cup) 画像をセグメント化し、BraTs 2021 データセットを使用して MRI スキャンで脳腫瘍をセグメント化し、TNMIX ベンチマークを使用して超音波画像で甲状腺結節をセグメント化しました。これは、TNSCUI からの 4,554 枚の画像と DDTI からの 637 枚の画像で構成されており、皮膚病変画像の黒色腫または母斑のセグメンテーションに ISIC 2019 データセットを使用しています。
さらに、チームは、さまざまな種類のキューを使用してモデルの単一キュー セグメンテーション機能をさらに評価するために、10 個の追加の 2D 画像セグメンテーション タスクを設定しました。具体的には、KiTS23、ATLAS23、TDSC、および WBC などのデータ セットはポイント プロンプト テクノロジを使用し、SegRap、CrossM23、および REFUGE データ セットは BBox (バウンディング ボックス) プロンプトを使用し、STAR および ToothFairy データ セットはマスク プロンプトを使用します。
MedSAM-2 のアーキテクチャは基本的に SAM 2 と似ていますが、研究チームは独自の効率的な処理モジュールとパイプラインも構築し、Confidence Memory Bank と Weighted Pick-up 戦略を組み合わせてモデルの機能を技術的に確保しました。
具体的には、MedSAM-2 のアーキテクチャを次の図に示します。含む:
* 入力を埋め込みに抽象化する画像エンコーダー
* メモリ アテンション メカニズム (メモリ アテンション)、メモリ バンクに保存されたメモリを使用して入力エンベディングを調整します
* 予測されたフレームの埋め込みを抽象化するメモリー デコーダー
ネットワーク内のエンコーダとデコーダは、SAM のものと似ています。エンコーダは階層化されたビジュアル トランスフォーマで構成され、デコーダにはプロンプト エンベディングと画像エンベディングを統合する軽量の双方向トランスフォーマが含まれます。プロンプト エンコーダはプロンプト エンコーダによって生成され、メモリ アテンション コンポーネントは一連のコンポーネントで構成されます。 stacked アテンション ブロックで構成され、各ブロックにはセルフ アテンション ブロックとクロス アテンション メカニズムが含まれています。
注目に値するのは、MedSAM-2 の重要な革新は、医療画像処理をビデオ セグメンテーションとして扱うことです。これは、3D 医用画像のセグメンテーション パフォーマンスを向上させ、「シングル プロンプト セグメンテーション機能」を解放するための鍵です。この目的のために、チームは、異なる次元の医用画像を効果的に実行するための 2D および 3D 医用画像用の 2 つの異なる操作プロセスも開発しました。分割処理。
3D医用画像処理では、3D 医用画像では隣接するスライス間に強い時間的相関があるため、処理方法もビデオ データの処理に似ています。SAM 2 の元のストレージ システムは、連続スライス セグメンテーションの入力に使用されます。次に、メモリ アテンション メカニズムを通じて画像の埋め込みが強化され、セグメンテーションの結果が記憶領域に追加されて、後続のスライスのセグメンテーションを支援します。
2D医用画像処理では、処理方法は、SAM 2 で使用されている時間先入れ先出しキューとは異なります。代わりに、同じ臓器または組織を含む医用画像のグループを「医用画像ストリーム」にグループ化し、「信頼優先」を使用します。ストレージ領域は、モデルのテンプレートを保存し、モデル予測の確率に基づいて信頼度を計算し、同時に画像多様性制約を実装するために使用されます。入力画像の埋め込みとバケット情報をマージするときに、重み付けされた選択戦略が採用されます。トレーニング段階では、より正確なモデル予測を保証するためにキャリブレーション ヘッドが使用されます。最終的には、たった 1 つのサンプル プロンプトを使用して、時間相関なしでターゲットの自動セグメンテーションを達成することができます。
研究チームは、IoU (Intersection over Union) と Dice Score を使用して医療画像セグメンテーションにおけるモデルのパフォーマンスを評価し、パフォーマンス評価の精度を確保するために Hausdorff Distance (HD95) メトリクスを導入しました。
* loU は Jaccard インデックスとも呼ばれ、特定のデータセットに対するオブジェクト検出器の精度を評価するために使用されるメトリクスです。
* ダイス スコア (ダイス係数とも呼ばれます) は、2 つのサンプル間の類似性を比較するための統計ツールです。
* ハウスドルフ距離 (HD95) メトリックは、主に 2 つの点セット間の差異の度合いを決定するために使用されるメトリックであり、画像セグメンテーション タスクでオブジェクトの境界の精度を評価するためによく使用され、最悪の場合を定量化するのに役立ちます。予測されたセグメンテーションとグラウンドトゥルース境界の間の距離が特に効果的です。
まず、チームは、2D および 3D 医用画像のセグメンテーション タスクを含む、さまざまな SOTA 医用画像セグメンテーション手法に対して MedSAM-2 のベンチマークを行いました。 3D 医用画像の場合、プロンプトは 0.25 の確率でランダムに提供されます。2D 医用画像の場合、確率は 0.3 です。
3D 医療画像上で提案されたモデルの一般的なパフォーマンスを評価するために、研究チームは、MedSAM-2 を、よく知られている nnUNET、TransUNet、UNetr、Swin-UNetr モデル、拡散ベースのモデル (EnsDiff、SegDiff、MedSegDiff など) を含む BTCV 多臓器セグメンテーション データセットで確立された高度なセグメンテーション手法と比較しました。 )。さらに、チームは、オリジナルの SAM、完全に微調整された MedSAM、SAMed、SAM-Med2D、SAM-U、VMN、FCFI などの対話型セグメンテーション モデルの比較評価も実施しました。パフォーマンスはダイス スコアを使用して定量化され、結果は次の図に示されています。
結果は、MedSAM-2 が以前の SAM および MedSAM と比較して大幅に改善されていることを示しています。 BTCV データセットでは、MedSAM-2 は多臓器セグメンテーション タスクで優れたパフォーマンスを達成し、最終ダイス スコア 88.57% に達しました。インタラクティブ モデルの中で、MedSAM-2 は主要な地位を維持しており、以前の主要なインタラクティブ モデル Med-SA を 2.78% 上回っています。これらすべてのインタラクティブ モデルではフレームごとにヒントが必要ですが、MedSAM-2 では少ないヒントでより良い結果が得られます。
2D 医療画像セグメンテーションのタスクについては、研究チームは、MedSAM-2 を、さまざまな画像モダリティにおける特定のタスクに合わせた手法と比較しました。具体的には、眼杯セグメンテーションについては ResUnet および BEAL と比較し、脳腫瘍セグメンテーションについては TransBTS および SwinBTS と比較し、皮膚病変セグメンテーションについては MTSeg および UltraUNet と比較しました。 FAT-NetとBATを比較します。さらに、チームはインタラクティブ モデルのベンチマークも実施しました。結果は次の図に示されています。
結果は、MedSAM-2 が 5 つの異なるタスクにおいて他のすべての方法より優れていることを示し、さまざまな医療画像セグメンテーション タスクにおける優れた汎化能力を実証しています。具体的には、MedSAM-2 は眼杯で 2.0% の改善、脳腫瘍で 1.6% の改善、甲状腺結節で 2.8% の改善を達成しました。インタラクティブ モデルの比較では、MedSAM-2 が依然としてパフォーマンスのリードを維持しています。
やっと、チームはまた、プロンプトを 1 つだけ与えた場合の MedSAM-2 のパフォーマンスも評価しました。また、連続画像間に明確な関連性はなく、これは MedSAM-2 が単一キュー セグメンテーションを実行できる能力をさらに検証します。具体的には、チームは、すべてのモデル テスト中に 1 つのプロンプトのみを表示して、MedSAM-2 を PANet、ALPNeu、SENet、および UniverSeg と比較しました。さらにチームは、MedSAM-2 を DAT、ProbONE、HyperSegNas、One-prompt などの一眼モデルと比較しました。
結果は、高度に訓練されたワンプロンプトと比較しても、MedSAM-2 がさまざまなタスクにわたって堅牢な汎化能力を示し、依然として良好なパフォーマンスを示し、10 タスク中 1 タスクのみで劣っていることを示しています。さらに、すべてのメソッドがマスクを提供するシナリオでは、MedSAM-2 はより明白な利点を示し、通常は平均 3.1% で 2 位を上回り、これはすべてのプロンプト設定の中で最大の差です。
この論文の出版は、医療分野における SAM および SAM 2 の可能性をさらに深く探求したものであると言え、特に臨床応用において、医療画像セグメンテーションの分野に新しいアイデアと方法を提供します。医用画像のセグメンテーションの作業負荷を大幅に軽減し、医用画像のセグメンテーションの効率と精度を向上させることができます。
さらに注目すべき点は、記事の冒頭で述べたように、多くの研究室や学術チームが SAM の可能性を研究しています。医療画像セグメンテーションの分野では、この文書で言及したオックスフォード大学のチームだけではありません。
偶然にも、SAM のリリースから間もなく、深セン大学医学部生体医工学部の Ni Dong 教授のチームは、オックスフォード大学、チューリッヒ工科大学、浙江大学、深セン人民病院、都営医科大学と協力して、SAM の医療画像処理について議論しました。このアプリケーションにより、包括的で複数の角度からの実験と評価が可能になります。関連する論文と結果は「Segment Anything Model for Medical Images?」というタイトルで、医療画像解析分野のトップ国際ジャーナルである「Medical Image Analysis」に掲載されました。
この論文の研究において、関連チームは最終的に、18の画像モダリティ、84の生物医学分野セグメンテーションターゲット、1050Kの2D画像、および6033Kのセグメンテーションマスクを含む非常に大規模な医療画像セグメンテーションデータセットCOSMOS 1050Kを構築した。このデータセットに基づいて、研究者らは SAM の包括的な評価を実施し、医療対象の認識における SAM を改善する能力を調査しました。
さらに、上海の復旦大学ビッグデータ学部と上海交通大学生体医工学部のチームも、医療画像セグメンテーションの分野で SAM に関する一連の研究を実施しました。関連する論文のタイトルは「Segment anything」です。 「医療画像セグメンテーションのモデル: 現在のアプリケーションと将来の方向性」。これは、arXiv や Computer in Biology and Medicine などの有名な学術 Web サイトやジャーナルに掲載されています。
この論文では、自然画像セグメンテーションで目覚ましい成果を上げている SAM を医用画像セグメンテーションの分野に応用できる可能性に焦点を当て、医用画像セグメンテーションに適応するための SAM モジュールの微調整と同様のアーキテクチャの再トレーニングについて検討します。 。
用紙のアドレス:
https://www.sciencedirect.com/science/article/abs/pii/S0010482524003226
全体として、上記の論文で説明したように、科学者は SAM の可能性を探求することで医療画像の処理と分析をよりシンプルかつ効率的にしており、これは学術界、医学界、さらには患者にとっても価値のある結果となるでしょう。同時に、SAM のような一般的な画像セグメンテーション モデルのリリースも、さまざまな分野への魔法の扉を開きます。私は、医療画像の分野だけでなく、自動運転、新しいメディア、AR/VRなども将来的に大きな恩恵を受ける可能性があると信じています。
宝くじとギフトブック
HyperAI と Electronic Industry Press が書籍の特典を提供しました。超有益な人気科学書「AI for Science: Artificial Intelligence Drives Scientific Innovation」を5冊ご用意しましたので、ぜひ抽選にご参加ください~
参加方法
HyperAI公式アカウントをフォローし、裏にある「AI4S書籍プレゼント」にリプライして抽選ページをクリックすると抽選に参加できます 計5冊をご用意し、速達でお届けいたします。ぜひご参加ください!
本の紹介
タンパク質構造の予測から遺伝子変異の病原性の推測に至るまで、AI が主導する新しいパラダイムにより、生命科学を含むさまざまな科学分野で新たな機会が見られるようになりました。
『科学のための AI: 人工知能が科学イノベーションを推進する』 では、人工知能と材料科学、生命科学、電子科学、エネルギー科学、環境科学の 5 つの主要分野の交差点と統合に焦点を当て、わかりやすく解説しています。基本概念、技術原理、応用シナリオが包括的に紹介されており、読者は科学向け AI の基礎知識をすぐに習得できます。さらに本書では、横断的な分野ごとに事例を交えて詳しく紹介し、業界地図を整理し、関連する政策のインスピレーションを与えてくれる。