要約
トランスフォーマーに基づく手法は、ビジョントランスフォーマーが優れた性能を発揮して以来、医療画像研究分野で主流となりつつある。トランスフォーマーに基づくアプローチは、畳み込みニューラルネットワーク(CNN)の持つ長距離依存性の問題を解決した一方で、局所的な詳細情報を捉える点で課題を抱えている。近年の研究では、局所的な詳細情報と意味的情報を堅牢に統合する手法に注目が集まっている。本研究では、このような課題に対処するため、新しいトランスフォーマー-CNNハイブリッドネットワーク「RAPUNet」を提案する。本手法では、メタフォーマー(MetaFormer)をトランスフォーマーのバックボーンとして採用し、局所特徴の強化と局所情報とグローバル情報の統合問題の緩和を目的として、独自の畳み込みブロック「RAPU(Residual and Atrous Convolution in Parallel Unit)」を導入している。RAPUNetの分割性能は、ポリープ分割に広く用いられるベンチマークデータセット(Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、EndoScene-CVC300、ETIS-LaribPolypDB)上で評価された。実験結果から、本モデルは平均Dice係数および平均IoUにおいて競争力のある性能を示した。特に、CVC-ClinicDBデータセットにおいて、最先端手法を上回る結果を達成した。コード公開:https://github.com/hyunnamlee/RAPUNet