AgileFormer: 空間的に機敏なTransformer UNetを用いた医療画像セグメンテーション

過去数十年間、深層ニューラルネットワーク、特に畳み込みニューラルネットワークは、様々な医療画像セグメンテーションタスクにおいて最先端の性能を達成してきました。最近、ビジョントランスフォーマー(Vision Transformer, ViT)の導入により、深層セグメンテーションモデルの領域が大きく変化しました。優れた性能とスケーラビリティにより、ViTへの注目度が高まっています。しかし、我々は現在のビジョントランスフォーマーを基にしたUNet(ViT-UNet)セグメンテーションモデルの設計が、医療画像セグメンテーションタスクにおける対象物の非均質な外観(例えば、異なる形状やサイズ)を効果的に処理できない可能性があると主張します。この課題に対処するため、我々はViT-UNetに空間的に動的なコンポーネントを導入する構造化アプローチを提案します。この適応により、モデルは多様な外観を持つ対象物の特徴を効果的に捉えることが可能になります。これは主に以下の3つのコンポーネントによって実現されます:\textbf{(i)} 変形可能なパッチ埋め込み;\textbf{(ii)} 空間的に動的なマルチヘッド注意機構;\textbf{(iii)} 変形可能な位置エンコーディング。これらのコンポーネントは新しいアーキテクチャであるAgileFormerに統合されました。AgileFormerは、医療画像セグメント化のために設計された空間的に機敏なViT-UNetです。公開データセットを使用した3つのセグメンテーションタスクでの実験結果から、提案手法の有効性が示されました。コードは \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer} で利用可能です。