
近年、ポリープのセグメンテーションは重要な課題として注目されており、CNN、ビジョン変換器(Vision Transformer)、および変換器技術を活用した多数の手法が開発され、競争力のある成果を上げている。しかし、これらの手法は分布外データ(out-of-distribution datasets)、境界の欠落、および小型ポリープの処理において、しばしば困難に直面する。2022年に、Meta-Formerが視覚領域の新たなベースラインとして提案された。このアーキテクチャは、マルチタスクコンピュータビジョンにおける性能向上を実現するとともに、ビジョン変換器およびCNN系バックボーンの限界を克服した。本研究では、セグメンテーション性能のさらなる向上を図るため、Meta-FormerとUNetの融合を提案し、デコーダ段階にマルチスケールアップサンプリングブロックを導入。このブロックはレベルアップ結合(level-up combination)を採用し、テクスチャの再現性を強化している。さらに、Meta-Formerの考え方を基にしたConvformerブロックを提案し、局所特徴における重要な情報の強化を実現した。これらのブロックにより、ポリープ全体の形状といったグローバル情報と、局所情報および境界情報の統合が可能となり、医療画像セグメンテーションにおける判断に不可欠な要素が実現された。提案手法は、CVC-300、Kvasir、CVC-ColonDBの各データセットにおいて、最先端(State of the Art)の性能を達成し、特にCVC-300およびCVC-ColonDBではトップスコアを記録した。Kvasir-SEGを除くすべてのデータセットは、分布外データである。実装コードは以下のGitHubリポジトリで公開されている:https://github.com/huyquoctrinh/MetaPolyp-CBMS2023。