
要約
医用画像セグメンテーションは、多くの臨床的ニーズの前提条件であるが、近年の畳み込みニューラルネットワーク(CNN)の進展により著しく発展してきた。しかし、明示的な長距離依存関係のモデル化において一般的な限界を示しており、従来の対策として深層エンコーダーを構築し、過度なダウンサンプリングを行う手法は、冗長な深層ネットワークの構築と局所的な詳細情報の損失を引き起こす。したがって、グローバルな文脈を効率的にモデル化しつつ、低レベルの詳細情報を十分に保持するためのより優れた解決策が、セグメンテーションタスクにおいて待たれている。本論文では、この課題に対処するため、新しい並列分岐型アーキテクチャ「TransFuse」を提案する。TransFuseは、TransformerとCNNを並列的に統合する構造を採用しており、より浅いネットワーク構造で、グローバルな依存関係と低レベルの空間的詳細を効率的に捉えることが可能となる。さらに、両ブランチから得られる多段階特徴量を効率的に統合するための新規な融合技術「BiFusionモジュール」を導入している。広範な実験により、ポリープ、皮膚病変、大腿骨頭、前立腺などの2次元および3次元医用画像セグメンテーションデータセットにおいて、TransFuseが最新の最先端性能を達成することが示された。同時に、パラメータ数の大幅な削減と推論速度の向上も実現した。