17日前

SegFormer3D:3次元医療画像セグメンテーションのための効率的トランスフォーマー

Shehan Perera, Pouyan Navard, Alper Yilmaz
SegFormer3D:3次元医療画像セグメンテーションのための効率的トランスフォーマー
要約

ビジョン変換器(ViT)に基づくアーキテクチャの導入は、3次元医療画像(MI)セグメンテーションにおいて重要な進展をもたらしており、従来の畳み込みニューラルネットワーク(CNN)モデルを上回る形で、グローバルな文脈理解を強化しています。このアーキテクチャの転換により、3次元セグメンテーションの性能は顕著に向上しましたが、最先端のアーキテクチャは、訓練および展開に極めて大規模で複雑なモデル構造と、大規模な計算リソースを必要とします。さらに、医療画像においてしばしば見られる限られたデータセットの文脈では、より大きなモデルはモデルの汎化性能および収束性において課題を引き起こすことがあります。こうした課題に対応し、軽量モデルが3次元医療画像処理における重要な研究分野であることを示すために、本研究ではSegFormer3Dを提案します。SegFormer3Dは階層的なTransformerアーキテクチャであり、マルチスケールなボリューム特徴量間でのアテンション計算を実現します。さらに、複雑なデコーダーを回避し、すべてがMLP(多層パーセプトロン)で構成されるデコーダーを採用することで、局所的およびグローバルなアテンション特徴を効果的に統合し、高精度なセグメンテーションマスクを生成します。提案するメモリ効率の高いTransformerは、大幅に大型なモデルと同等の性能を、コンパクトな設計で維持しています。SegFormer3Dは、現在の最先端(SOTA)モデルと比較して、パラメータ数が33分の1、GFLOPSが13分の1に削減されるという優れた効率性を実現し、3次元医療画像セグメンテーションにおけるディープラーニングの民主化を実現しました。本研究では、Synapse、BRaTs、ACDCの3つの広く用いられているデータセット上でSegFormer3Dを現在のSOTAモデルと比較し、競争力のある結果を達成しました。コードは以下のGitHubリポジトリで公開されています:https://github.com/OSUPCVLab/SegFormer3D.git