Squeeze-and-Expansion Transformers を使用した医療画像のセグメンテーション

医療画像のセグメンテーションは、コンピュータ支援診断において重要な役割を果たしています。優れたセグメンテーションには、モデルが全体像と細部を同時に捉えることが求められます。つまり、大域的な文脈を取り入れつつ高空間解像度を維持する画像特徴を学習することが必要です。この目標に近づくため、最も広く使用されている手法であるU-Netおよびその変種は、多尺度特徴の抽出と融合を行います。しかし、これらの融合された特徴は依然として「効果的な受容野」が小さく、局所的な画像ヒントに焦点を当てているため、性能が制限されています。本研究では、Segtranという新しいセグメンテーションフレームワークを提案します。これはトランスフォーマーに基づいており、「効果的な受容野」が無限であるという特性を持ちながらも高解像度の特徴を持つことができます。Segtranの核心となるのは新規のSqueeze-and-Expansionトランスフォーマーです。「Squeeze」ブロックはトランスフォーマーの自己注意機構を正則化し、「Expansion」ブロックは多様な表現を学習します。さらに、画像に対する連続性誘導バイアスを課す新しい位置エンコーディングスキームも提案しました。2次元および3次元の医療画像セグメンテーションタスクで実験を行いました。具体的には、眼底画像(REFUGE'20チャレンジ)での視神経乳頭/カップセグメンテーション、大腸内視鏡画像でのポリープセグメンテーション、MRIスキャン(BraTS'19チャレンジ)での脳腫瘍セグメンテーションです。代表的な既存手法と比較して、Segtranは一貫して最高のセグメンテーション精度を達成し、良好なクロスドメイン汎化能力も示しました。Segtranのソースコードはhttps://github.com/askerlee/segtranで公開されています。