MedNeXt:Medical Image Segmentation における ConvNets の Transformer ベーススケーリング

医療画像セグメンテーションにおけるTransformerベースのアーキテクチャへの関心は急増している。しかし、大規模なアノテーション付き医療データセットの不足により、自然画像における性能と同等の結果を達成することは依然として困難である。一方、畳み込みネットワーク(Convolutional Networks)は高い誘導バイアス(inductive biases)を持つため、高い性能に容易に到達できる。近年、ConvNeXtアーキテクチャは、Transformerのブロック構造を模倣することで、従来のConvNetを現代化を試みた。本研究では、こうしたアプローチをさらに発展させ、データが限られた医療環境に特化した現代的かつスケーラブルな畳み込みアーキテクチャを設計した。本研究で提案するMedNeXtは、Transformerのインスピレーションを受けて設計された大キーネルセグメンテーションネットワークであり、以下の4つの新技術を導入している:1)医療画像セグメンテーション向けに完全に最適化された3D ConvNeXtエンコーダデコーダネットワーク、2)スケール間で意味情報の豊かさを維持するための残差型ConvNeXtアップ・ダウンサンプリングブロック、3)小さなキーネルネットワークをアップサンプリングすることで逐次的にキーネルサイズを拡大する新しい技術により、限られた医療データ上での性能飽和を回避、4)MedNeXtの複数レベル(深さ、幅、キーネルサイズ)における複合的スケーリング戦略。これらの工夫により、CTおよびMRIモダリティにおいて、データセットサイズが異なる4つのタスクで最先端の性能を達成し、医療画像セグメンテーションに向けた現代的な深層学習アーキテクチャとしての可能性を示した。本研究のコードは、以下のURLで公開されている:https://github.com/MIC-DKFZ/MedNeXt。