メディカルトランスフォーマー:医療画像セグメンテーションのためのゲート付き軸方向アテンション

過去10年間、深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks)は、医療画像セグメンテーションの分野で広く採用され、十分な性能を発揮していることが示されている。しかし、畳み込みアーキテクチャに内在する誘導的バイアス(inductive biases)の影響により、画像内の長距離依存関係を十分に捉えることができないという課題がある。近年提案されたTransformerベースのアーキテクチャは、自己注意機構(self-attention mechanism)を活用することで長距離依存関係を効果的にエンコードし、表現力の高い特徴表現を学習できる。この点から、Transformerベースのアプローチを検討し、医療画像セグメンテーションタスクにおけるTransformerアーキテクチャの実現可能性を調査することを目的とする。現存する視覚系アプリケーション向けに提案された多数のTransformerベースのネットワークは、適切な訓練を行うために大規模なデータセットを必要とする。しかし、視覚系アプリケーションと比較して、医療画像分野におけるデータサンプル数は相対的に少ないため、医療用途におけるTransformerの効率的な訓練は困難である。こうした課題に対応するため、本研究では自己注意モジュールに追加の制御機構を導入することで、既存アーキテクチャを拡張した「ゲート付き軸方向注意(Gated Axial-Attention)モデル」を提案する。さらに、医療画像上で効果的にモデルを訓練するため、局所的・グローバルな特徴を同時に学習する「局所-グローバル学習戦略(Local-Global training strategy, LoGo)」を提案する。具体的には、画像全体と局所的なパッチに対してそれぞれ異なる処理を行い、グローバルな構造情報と局所的な詳細情報を統合的に学習する。提案する医療画像用Transformer(MedT)は、3つの異なる医療画像セグメンテーションデータセット上で評価され、畳み込みベースおよび他のTransformerベースのアーキテクチャと比較して優れた性能を示した。コードは以下のGitHubリポジトリで公開されている:https://github.com/jeya-maria-jose/Medical-Transformer