8ヶ月前

概要

畳み込みニューラルネットワーク（CNN）の登場以来、医療画像解析において大きな進歩が見られています。しかし、畳み込み演算の局所的な性質は、CNNが全体的かつ長距離の相互作用を捉える能力に制限をもたらす可能性があります。最近では、その全体的な特徴を効果的に処理する能力から、トランスフォーマーがコンピュータビジョン分野および医療画像セグメンテーションでも注目を集めています。ただし、自己注意機構のスケーラビリティ問題やCNNのような帰納的バイアスの欠如により、その採用が制限されていました。そのため、畳み込みと自己注意機構の両方の利点を活用するハイブリッドビジョントランスフォーマー（CNN-トランスフォーマー）が重要性を増しています。本研究では、医療画像セグメンテーション向けに新しいエンコーダー-デコーダー型のUNetタイプのハイブリッドビジョントランスフォーマー（CNN-トランスフォーマー）であるMaxViT-UNetを提案します。提案されたハイブリッドデコーダーは、各デコードステージで畳み込みと自己注意機構の両方の力を最小限のメモリと計算負荷で活用することを目指して設計されています。各デコーダーステージ内での多軸自己注意機構の導入により、対象領域と背景領域との識別能力が大幅に向上し、セグメンテーション効率の向上に寄与します。ハイブリッドデコーダーでは新たなブロックも提案されています。融合プロセスは、転置畳み込みを通じて得られた下位レベルのデコーダー特徴量をアップサンプリングし、ハイブリッドエンコーダーから派生したスキップ接続特徴量と統合することで開始されます。その後、融合された特徴量は多軸注意機構を利用した精製処理を受けます。提案されたデコーダーブロックは複数回繰り返され、核領域の段階的なセグメンテーションを実現します。MoNuSeg18およびMoNuSAC20データセットにおける実験結果は、提案手法の有効性を示しています。

ソースPDF コードを表示