医療画像における一般化セグメンテーションのためのハイブリッドデュアルピラミッドTransformer-CNNによる注意ゲートの再考

コンピュータビジョン分野におけるTransformerの成功を受けて、Transformerは医療画像セグメンテーション分野でも広く研究されている。しかし、現行の多くはCNNエンコーダと並列に配置されたTransformerアーキテクチャ、あるいは最近のTransformerアーキテクチャをエンコーダとして用いる構成にとどまっている。本研究では、強力なCNN-Transformerエンコーダを効率的に構築することを目的として、新たなハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。本手法は、二重ピラミッド型ハイブリッドエンコーダ内にアテンションゲートを活用することで、CNNとTransformerの両ブランチから抽出された顕著な特徴を効果的に統合する。本手法の貢献は以下の3点に要約できる:(i)異なるスケールにおける顕著な特徴を強調するためのピラミッド入力の導入、(ii)複数の解像度間での長距離依存関係を捉えるためにPVT(Pyramid Vision Transformer)を組み込むこと、(iii)CNNブランチとTransformerブランチから得られる顕著特徴を効果的に融合するための二重アテンションゲート機構の実装。腹腔内多臓器セグメンテーション、感染症セグメンテーション(コロナウイルス感染症および骨転移)、顕微鏡的組織セグメンテーション(腺組織および核)という多様なセグメンテーションタスクにおける包括的な評価を通じて、提案手法は最先端の性能を達成し、優れた汎化能力を示した。本研究は、医療画像処理における効率的かつ柔軟なセグメンテーションソリューションに対する急務なニーズに応える上で、重要な進展を示している。