
本研究では、医療画像セグメンテーションを目的としたU-Netベースアーキテクチャにおけるスキップ接続の性能向上を図るため、シンプルでありながら有効な注目メカニズム「Dual Cross-Attention(DCA)」を提案する。DCAは、マルチスケールエンコーダ特徴量のチャネルおよび空間的依存関係を逐次的に捉えることで、エンコーダとデコーダの特徴間における意味的ギャップを解消する。まず、チャネルクロスアテンション(CCA)モジュールは、マルチスケールエンコーダ特徴量のチャネルトークン間におけるクロスアテンションを用いて、グローバルなチャネル依存関係を抽出する。次に、空間クロスアテンション(SCA)モジュールが空間トークン間におけるクロスアテンションを実行し、空間的依存関係を捉える。最後に、これらの細粒度なエンコーダ特徴量はアップサンプリングされ、対応するデコーダ部分に接続されてスキップ接続構造を形成する。提案するDCAモジュールは、U-Netやその変種を含む任意のスキップ接続を持つエンコーダ-デコーダアーキテクチャに容易に統合可能である。本研究では、U-Net、V-Net、R2Unet、ResUnet++、DoubleUnet、MultiResUnetの6種類のU-NetベースアーキテクチャにDCAモジュールを統合し、実験を行った。その結果、GlaSデータセットで最大2.05%、MoNuSegで2.74%、CVC-ClinicDBで1.37%、Kvasir-Segで1.12%、Synapseデータセットで1.44%のDiceスコア向上が確認された。本研究のコードは以下のURLから公開されている:https://github.com/gorkemcanates/Dual-Cross-Attention