CVPR 2025に選出されました!深セン大学のチームと他の研究者は、多断面心エコー図を正確に分割できるEchoONEを提案した。

心血管疾患による死亡は中国住民の主な死亡原因である。心エコー検査は、非侵襲性、低コスト、リアルタイム画像化などの利点により、臨床現場で最も広く使用されている心臓検査方法の 1 つとなっています。実際の手術では、超音波医師は心臓をさまざまな位置や角度からスキャンして複数の断面の超音波画像を取得し、それらの断面を組み合わせて、心筋の輪郭の特定や各心室のサイズの測定など、心臓の構造と機能を分析する必要があります。
しかし、異なるスライス間の構造的な違いが大きいため、既存のセグメンテーション モデルはマルチスライス グラフに対する一般化能力が弱く、通常は特定のスライスごとに個別にカスタマイズする必要があり、その結果、繰り返し開発を行うコストが高くなります。さらに、特定のセクションのモデルを他のセクションに適用すると、パフォーマンスが大幅に低下することが多く、臨床現場での推進や応用が制限されます。
これに対応して、深セン大学医学部バイオメディカル工学学院医療超音波画像コンピューティング研究室(MUSIC)、深セン大学国家ビッグデータ工学研究室、深セン人民病院超音波科の研究チームは、マルチセクション心エコー検査の統合セグメンテーションモデル「EchoONE」を提案した。このモデルは、自然な画像セグメンテーションの大規模モデル SAM 微調整技術と心臓超音波断面の事前知識を組み合わせたものです。マルチセクション心エコー図の心臓構造を正確にセグメント化できるため、設計モデルの複雑さが効果的に軽減されます。医師が心臓機能をより効率的に評価できるように支援します。
「EchoONE: 1 つのモデルで複数の心エコー検査平面をセグメント化する」と題されたこの研究は、2025 年の IEEE/CVF コンピューター ビジョンおよびパターン認識会議 (CVPR) に選出されました。
研究のハイライト:
* 構造上大きな違いがある多断面心エコー図を正確にセグメント化できる統合モデルの開発に成功
* 意味を考慮した高密度の手がかりを生成するために、事前に構成可能なマスク学習モジュール (PC-Mask) が提案され、SAM アーキテクチャを適応させるためにローカル特徴融合および適応モジュール (LFFA) が導入されています。これにより、EchoONE は、データ分布が大きく異なり境界が曖昧な心エコー図のさまざまなセクションの処理において優れたパフォーマンスを発揮します。
* EchoONEモデルのパフォーマンスは、微調整に基づく他の多くの大型モデルよりも優れており、外部テストセットでも最高のパフォーマンスを達成しています。

用紙のアドレス:
https://arxiv.org/abs/2412.02993
オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
データセット: 3 つの大規模な公開データセット + 22,044 の非公開画像アノテーション ペア
この研究では、複数の施設からの多断面心エコー図を使用しました。プライベートデータセットとパブリックデータセットが含まれます。
公開データセットには、CAMUS、HMC_QU、EchoNet_Dynamic が含まれます。 CAMUS はこの分野で広く使用されている心臓超音波データセットです。これはフランスの複数の病院から提供されたもので、500件の二腔心臓(2CH)と四腔心臓(4CH)のデータが含まれています。 HMC_QU データセットは、ハマド医療公社 (HMC)、タンペレ大学、カタール大学の共同で作成されました。 EchoNet-Dynamic データセットはスタンフォード大学によって作成されました。この研究では、比較分析を容易にするために、外部テスト実験にのみテスト セットを使用しました。
* CAMUS心臓超音波画像データセットのダウンロード:
https://hyper.ai/cn/datasets/38453
* HMC-QU 心臓医療画像データセットのダウンロード:
https://hyper.ai/cn/datasets/38456
非公開データセットは、国内の複数の協力病院の超音波データから取得され、2腔心臓(2CH)、3腔心臓(3CH)、4腔心臓(4CH)、胸骨傍左室短軸(PSAX)の3つの異なる水平断面を含む合計22,044の画像注釈ペアが含まれています。
モデルアーキテクチャ: SAMに基づくEchoONEモデルは、3つの主要コンポーネントで構成されています。
EchoONE の全体的なフレームワークは、主に 3 つのコンポーネントで構成されています。SAM ベースのセグメンテーション アーキテクチャ。高密度プロンプトを生成するコンポーネント。 SAM を調整および適応するための CNN ベースのローカル機能ブランチ。ネットワーク アーキテクチャ全体は、元の SAM に基づいて構築されます。Transformer ベースの画像エンコーダーとマスク デコーダー、スパース ヒント エンコーダー、および密ヒント用のマスク エンコーダーが含まれています。

さらに、研究者らは、SAM の特定のタスクへの適応性を高めるために、ラダーサイドチューニング (LST) ブランチにローカル機能融合および適応モジュール (LFFA) を導入しました。同時に、彼らは意味的に認識された高密度の手がかりを生成するために、クラスタリングベースの事前構成可能なマスク学習モジュール (PC-Mask) も提案しました。 PC-MaskとLFFAの詳細は以下の通りです。
(a) PCマスクモジュール
高密度マスク キューは、ポイント キューやボックス キューよりも豊富な情報を SAM に提供し、PC-Mask モジュールは高品質のマスク キューを自動的に生成できます。複数のスライス上の意味構造の多様性を処理するために、研究者はまず、異なるスライス上の画像を潜在特徴空間内の K 個のクラスターにグループ化しました。各クラスターの中心は、潜在空間内のクラスターのプロトタイプとして使用されます。同様に、クラスターに割り当てられた画像のマスクを平均化することで、中心マスクを取得できます。

これらのマスク中心を構造事前分布として用いると、研究者の目標は、スライスの種類に関する情報なしに、新しい画像ごとに心筋領域の密なヒントを生成することだった。入力画像の場合、これらのプロトタイプとの類似性 (または距離) は、潜在空間における位置を表すために使用されます。次に、類似度を重みとして使用して、これらの事前中心をマルチチャネル事前埋め込みに結合し、最後に軽量 U-Net に入力し、出力結果を SAM の密なプロンプトとして使用します。このプロセスは、ダイス損失と BCE 損失を使用して制約されます。
(b) LFFAモジュール
SAM の機能を最大限に活用し、再トレーニングやリソースの浪費を回避するには、新しいシナリオに適応するように SAM を調整する補助ブランチが必要です。研究者らは、3 つの部分で構成される学習可能な CNN ブランチを設計しました。1 つ目は、ローカル特徴抽出のための残差ブロックです。 2つ目は、画像エンコーダのクロスブランチアテンションを調整するためのCNNブロックです。 3 番目は、マスク デコーダーを特定のタスクに適応させるローカル フィーチャ フュージョン トランスフォーマー ブロックです。
マスクデコーダーでは、元のSAMの2つのトランスフォーマーブロックに加えて、研究者らは3つの学習可能なブロックも追加した。地域特性の融合に適応する。ブランチ間で注目される画像エンコーダー内の CNN ブロックの各層のローカル特徴は、マスク デコーダー内の対応する Transformer ブロックに接続され、各層の特徴は LFFA モジュールを通じて融合されます。プロセスは以下のとおりです。

実験的結論: EchoONEは心エコー検査のマルチプレーンセグメンテーションタスクにおいて正確かつ堅牢である。
研究者たちは、内部と外部の両方のデータセットを使用して広範な実験を実施しました。これはEchoONEの有効性を証明しています。
多面的なタスクに対する堅牢性: 次の表は、内部テスト セットのさまざまな側面におけるモデルのパフォーマンスをまとめたものです。 EchoONEはCNN、Transformer、SAMをベースにしたモデルを比較していることがわかります。平均ダイス、IoU、HD95 指標の点で最高の結果を達成しました。

異なる心臓構造に対する堅牢性:下のレーダーチャートに示すように、以前のモデルと比較して、EchoONE モデルは、心臓の各構造 (左心房、左心室、心筋) でより高い Dice 値を取得しました。

センター間データに対する堅牢性:次の図と表は、EchoONE が 5 つの内部センターのテスト セットで最高のパフォーマンスを達成したことを示しています。


外部検証:下の図に示すように、トレーニング中に見られなかった2つの外部テストセットでも、EchoONE は依然として強力な一般化パフォーマンスを発揮します。明らかなノイズと低品質の画像を伴う HMC_QU の場合、EchoONE は 73.94% の Dice スコアも提供しており、実際の臨床現場で大きな可能性を秘めていることを示しています。

視覚分析:視覚化結果の比較から、次のことがわかります。EchoONE は、適切なセグメンテーション領域を提供するだけでなく、輪郭の改良においても優れた結果をもたらします。これは、異なるスライスに対して粗いセグメンテーション結果を生成し、モデルがその領域に焦点を合わせて境界を絞り込むように促し、それによってセグメンテーション結果が改善されるためです。

アブレーション実験の結果: PC-Mask および LFFA モジュールがモデルのパフォーマンスを向上させる効果をさらに研究するために、研究者は 5 つの内部データセットでアブレーション実験を実施しました。結果から、これら 2 つのモジュールは、それぞれ事前の知識を活用し、意味的に認識された方法でローカル機能を融合することにより、SAM アーキテクチャを最適化します。これにより、EchoONE は心エコー検査のマルチスライスセグメンテーション問題に対して正確で堅牢なパフォーマンスを実現できます。

この研究は他の医療画像診断法にも応用できる。
EchoONE モデルは、革新的な高密度キュー学習モジュールである PC-Mask を導入することで、マルチスライス セグメンテーションの複雑な課題に対処することを目指しています。このモジュールは、事前の構造的知識を構成可能な方法で活用し、セグメンテーション プロセス中に効果的なスライス固有のセマンティック ガイダンスを提供します。さらに、この研究では、画像エンコーダを最適化し、マスクデコーダを適応させるための学習可能な CNN ローカル特徴ブランチを提案しました。 LFFA モジュールは最終的なパフォーマンスを向上させるだけでなく、収束速度も加速しました。
これは、単一の堅牢なモデルを使用してすべての心エコー図セクションを効果的にセグメント化し、臨床現場での人工知能技術の応用を簡素化する初めての提案方式です。現在は超音波画像でのみ検証されていますが、このアプローチは、マルチスライスのセグメンテーションの問題を処理するために他の医療用画像診断法に拡張できる可能性があります。今後、研究者はより多くの側面の一般化機能を改善し、多面的なビデオのための堅牢なモデルを構築することに重点を置く予定です。
なお、この研究プロジェクトの責任者である薛武峰氏は、深圳大学医学部生物医学工学学院の出身者である。彼のチームは長年にわたり、心臓の構造/機能/血流モデリング、基本的な心臓モデル、大規模なグラフィックモデルなど、心臓の医療用画像と人工知能に関する研究を行ってきました。訪問学生、ポスドク、研究者などの参加を歓迎します。ご興味のある方は、Xue Wufeng教授(xuewf@szu.edu.cn)までご連絡ください。
* 薛武峰の個人ホームページ:
https://bme.szu.edu.cn/info/116