UCTransNet: U-Netのスキップ接続をチャネルごとの視点から再考する - Transformerを用いて

最近のセマンティックセグメンテーション手法の多くは、エンコーダー-デコーダー構造を持つU-Netフレームワークを採用しています。しかし、単純なスキップ接続スキームを持つU-Netが全体的な多スケールコンテキストをモデル化することは依然として困難です:1) エンコーダーとデコーダー段階の特徴量セットが互換性がないという問題により、すべてのスキップ接続設定が効果的であるわけではなく、一部のスキップ接続はセグメンテーション性能に悪影響を与えることがあります;2) いくつかのデータセットでは、元のU-Netはスキップ接続なしのものよりも性能が劣ることがあります。これらの知見に基づいて、私たちはチャネル視点からアテンションメカニズムを導入した新しいセグメンテーションフレームワークを提案します。このフレームワークはUCTransNetと命名され、U-Net内に提案されたCTransモジュール(Channel Transformation module)を含んでいます。具体的には、CTransモジュールはU-Netのスキップ接続の代替となり、Transformerを使用した多スケールチャネルクロス融合(Multi-scale Channel Cross Fusion with Transformer, CCT)を行うサブモジュールと、融合された多スケールチャネル情報がデコーダー特徴量と効果的に接続されるようにガイドするチャネルごとのクロスアテンション(Channel-wise Cross-Attention, CCA)サブモジュールで構成されています。したがって、提案されたCCTとCCAからなる接続は、元のスキップ接続に代わって医療画像の自動セマンティックセグメンテーションにおける意味論的ギャップを解消し、正確なセグメンテーションを実現することができます。実験結果によると、私たちのUCTransNetはより精密なセグメンテーション性能を示し、異なるデータセットやトランスフォーマーやU字型フレームワークを含む従来のアーキテクチャにおいても最先端技術を超える一貫した改善を達成しています。コード: https://github.com/McGregorWwww/UCTransNet