17日前

Swin-Unet:医用画像セグメンテーション向けのUnet型純トランスフォーマー

Hu Cao, Yueyue Wang, Joy Chen, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian, Manning Wang
Swin-Unet:医用画像セグメンテーション向けのUnet型純トランスフォーマー
要約

近年、畳み込みニューラルネットワーク(CNN)は医療画像解析分野で多くの画期的な成果を上げている。特に、U字型アーキテクチャとスキップ接続を基盤とする深層ニューラルネットワークは、多様な医療画像タスクに広く応用されている。しかし、CNNは畳み込み演算の局所性により、グローバルかつ長距離の意味的情報相互作用を十分に学習できないという課題を抱えている。本論文では、医療画像セグメンテーションを目的とした、純粋なTransformerを用いたU字型アーキテクチャである「Swin-Unet」を提案する。本手法では、画像パッチをトークン化し、スキップ接続を備えたTransformerベースのU字型エンコーダ-デコーダ構造に投入することで、局所的・グローバルな意味特徴の学習を実現する。具体的には、階層的なスウィンTransformer(シフトウィンドウを用いた)をエンコーダとして採用し、文脈特徴を抽出する。また、パッチ拡張層を備えた対称的なスウィンTransformerベースのデコーダを設計し、特徴マップの空間解像度を復元するためのアップサンプリング処理を実行する。入出力の直接的な4倍ダウンサンプリングおよびアップサンプリングを実施した条件下で、多臓器および心臓セグメンテーションタスクにおける実験結果から、完全畳み込み型またはTransformerと畳み込みの組み合わせ型手法と比較して、純粋なTransformerベースのU字型エンコーダ-デコーダネットワークが優れた性能を示した。本研究のコードおよび学習済みモデルは、https://github.com/HuCaoFighting/Swin-Unet にて公開される予定である。