MISSFormer:効果的な医療画像セグメンテーション用Transformer

CNNに基づく手法は、医療画像分類において優れた成果を上げているが、畳み込み演算の固有の局所性により、長距離依存関係を捉えることができないという課題がある。一方、Transformerに基づく手法は、長距離依存関係のモデル化能力と高い性能が評価され、近年、視覚タスクにおいて注目を集めている。しかし、局所的文脈のモデリングには不足している。本論文では、医療画像分類を具体例として、MISSFormer(Medical Image Segmentation tranSFormer)を提案する。MISSFormerは、階層的なエンコーダ・デコーダ構造を採用した効果的かつ強力な医療画像分類用Transformerモデルである。本モデルは以下の2つの特徴的な設計を備えている。1)提案する「Enhanced Transformer Block」を用いて、前向きネットワークを再設計することで、長距離依存関係の強化と局所的文脈の補完を実現し、特徴量の識別性を向上させた。2)従来の手法がグローバル情報のみをモデル化するのに対し、本研究では「Enhanced Transformer Context Bridge」を提案。このコンテキストブリッジは、階層的Transformerエンコーダによって生成される多スケール特徴量から、長距離依存関係と局所的文脈を同時に抽出可能となる。これらの2つの設計により、MISSFormerは医療画像分類においてより識別的な依存関係および文脈を捉える強力な能力を発揮する。複数臓器および心臓画像分類タスクにおける実験結果から、MISSFormerの優位性、有効性、およびロバスト性が示された。特に、ImageNet上で事前学習を行わずに初期化から訓練したMISSFormerの性能は、既存の最先端手法を上回る結果を達成した。本研究の核心的な設計は、他の視覚分類タスクにも一般化可能である。コードはGitHubにて公開されている:https://github.com/ZhifangDeng/MISSFormer