
要約
畳み込みニューラルネットワーク(CNN)に基づく手法は、優れた性能を発揮するため、医療画像のセグメンテーション分野でますます注目を集めている。しかし、これらの手法は長距離依存関係を捉える能力に欠け、グローバルな文脈相関を正確にモデル化する上で課題を抱えている。これに対して、受容 field を拡張することで長距離依存関係を効果的にモデル化できる点が評価され、Transformerベースの手法が注目を集めている。こうした背景を踏まえ、本研究ではCNNとTransformerアーキテクチャを統合した高度な2次元特徴抽出手法を提案する。具体的には、並列構造のエンコーダを導入し、一方のブランチではResNetを用いて画像から局所情報を抽出し、他方のブランチではTransformerを用いてグローバル情報を抽出する。さらに、特に高密度予測タスクにおいて異なる解像度でのグローバル情報の抽出を可能とするために、Transformerにピラミッド構造を統合した。並列エンコーダで得られた異なる情報群をデコーダ段階で効率的に活用するため、チャネルアテンションモジュールを導入し、エンコーダ特徴をスキップ接続とボトルネックを介して統合・伝達する。本手法は、大動脈血管樹、心臓、多臓器の3つのデータセットにおいて、包括的な数値実験を実施した。最先端の医療画像セグメンテーション手法と比較した結果、特に小器官のセグメンテーションにおいて優れた精度を示した。本研究の実装コードは、GitHubにて公開されており、https://github.com/HongkunSun/ParaTransCNN から入手可能である。