MSRF-Net:バイオ医療画像セグメンテーションのためのマルチスケールリジッドフュージョンネットワーク

畳み込みニューラルネットワーク(CNN)に基づく手法は、バイオメディカル画像のセグメンテーション性能を著しく向上させてきた。しかし、これらの多くは、サイズが変動する対象物の効率的なセグメンテーションや、バイオメディカル分野で一般的な小規模かつ偏ったデータセットに対する学習を十分に実現できていない。サイズの変動に伴う課題に対処するためのマルチスケール融合アプローチを採用する手法は存在するが、それらは通常、一般的なセマンティックセグメンテーション問題に適した複雑なモデルを用いるため、医療画像分野に特化した使い勝手に欠ける場合がある。本論文では、医療画像セグメンテーションに特化して設計された新しいアーキテクチャである「マルチスケールリザルフェュージョンネットワーク(MSRF-Net)」を提案する。本手法は、二重スケール密度融合(Dual-Scale Dense Fusion: DSDF)ブロックを用いて、異なる受容野を持つマルチスケール特徴量の交換を可能にしている。DSDFブロックは、異なる解像度スケール間で厳密な情報交換を実現し、MSRFサブネットワークは複数のDSDFブロックを連続的に配置することで、効果的なマルチスケール融合を実現する。これにより、解像度の保持が可能となり、高レベルおよび低レベルの特徴量の情報伝達が改善され、高精度なセグメンテーションマップの生成が可能となる。提案するMSRF-Netは、対象物のサイズ変動を適切に捉えることができ、複数のバイオメディカルデータセットにおいて優れた結果を示す。公開されている4つのデータセットにおける広範な実験結果から、本手法は最先端の医療画像セグメンテーション手法を上回ることが明らかになった。Kvasir-SEG、CVC-ClinicDB、2018 Data Science Bowlデータセット、ISIC-2018皮膚病変セグメンテーションチャレンジデータセットにおいて、それぞれDICE係数0.9217、0.9420、0.9224、0.8824を達成した。さらに汎化性能の検証も実施し、CVC-ClinicDBおよびKvasir-SEGにおいてDICE係数0.7921および0.7575を達成した。