17日前

nnFormer:ボリュメトリックセグメンテーションのためのインターリーブドトランスフォーマー

Hong-Yu Zhou, Jiansen Guo, Yinghao Zhang, Lequan Yu, Liansheng Wang, Yizhou Yu
nnFormer:ボリュメトリックセグメンテーションのためのインターリーブドトランスフォーマー
要約

自然言語処理分野における選択モデルとして広く用いられているTransformerは、医療画像分野においてはほとんど注目されていない。長距離依存関係を効果的に捉える能力を持つことから、Transformerは、空間的な誘導バイアス(spatial inductive bias)という固有の欠点を持つ従来の畳み込みニューラルネットワーク(CNN)の限界を克服する可能性を秘めている。しかし、最近提案された多数のTransformerベースのセグメンテーション手法は、主にTransformerを補助モジュールとして用い、CNN表現にグローバルな文脈情報を取り込むために活用しているにとどまっている。この問題に対処するため、本研究では、体積データを対象とした3DTransformer「nnFormer」を提案する。nnFormerは、畳み込みと自己注意(self-attention)の操作を交互に組み合わせることで、効果的な特徴抽出を実現するとともに、局所的およびグローバルな体積ベースの自己注意機構を導入し、体積表現の学習を可能にしている。さらに、U-Net型アーキテクチャにおけるスキップ接続で従来用いられてきた結合(concatenation)や加算(summation)操作を、スキップ注意(skip attention)に置き換える手法を提案している。実験の結果、nnFormerは3つの公開データセットにおいて、従来のTransformerベース手法を大幅に上回る性能を達成した。nnUNetと比較すると、nnFormerはHD95値を顕著に低く抑え、DSC(Dice Similarity Coefficient)は同等の結果を示した。さらに、モデルアンサンブルにおいて、nnFormerとnnUNetが互いに高い補完性を示すことが明らかになった。