17日前

TransUNet:Transformerが医療画像セグメンテーションにおける強力なエンコーダーを実現する

Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L. Yuille, Yuyin Zhou
TransUNet:Transformerが医療画像セグメンテーションにおける強力なエンコーダーを実現する
要約

医療画像セグメンテーションは、特に疾患の診断や治療計画の立案において、ヘルスケアシステムの開発に不可欠な前処理技術である。さまざまな医療画像セグメンテーションタスクにおいて、U字型アーキテクチャ(通称U-Net)は事実上の標準として定着し、著しい成果を上げている。しかし、畳み込み演算の固有の局所性のため、U-Netは長距離依存関係を明示的にモデル化する能力に制限がある。一方、シーケンスからシーケンスへの予測を目的に設計されたTransformerは、内在的なグローバル自己注意機構を備えた代替アーキテクチャとして注目されているが、低レベルの詳細情報が不足するため、局所化能力に限界があることがある。本論文では、TransformerとU-Netの長所を併せ持つ「TransUNet」を提案する。本手法は、畳み込みニューラルネットワーク(CNN)の特徴マップからトークン化された画像パッチを入力シーケンスとして用い、Transformerによりグローバルなコンテキストを抽出する。一方で、エンコーダによって符号化された特徴量はデコーダでアップサンプリングされ、高解像度のCNN特徴マップと結合されることで、精密な局所化を実現する。本研究では、Transformerが医療画像セグメンテーションタスクにおける強力なエンコーダとして機能し、U-Netとの組み合わせにより局所的な空間情報を回復することで、より細かな詳細を強化できると主張する。TransUNetは、多臓器セグメンテーションや心臓セグメンテーションを含むさまざまな医療応用において、既存の競合手法を上回る性能を達成した。コードおよびモデルは、https://github.com/Beckschen/TransUNet にて公開されている。