MobileUNETR: 軽量なエンドツーエンドのハイブリッドビジョントランスフォーマーによる効率的な医療画像セグメンテーション

皮膚がんのセグメンテーションは、医療画像解析において重要な課題を呈しています。既存の多くの解決策、特にCNN(畳み込みニューラルネットワーク)ベースの手法は、全体的なコンテキスト理解の不足に起因する問題に直面しています。一方で、一部の手法では大規模なトランスフォーマーモデルを使用して全体的なコンテキストギャップを埋めようとしていますが、これにはモデルサイズと計算量の増加という代償があります。さらに、多くのトランスフォーマーベースのアプローチは主にCNNベースのデコーダーに依存しており、トランスフォーマーベースのデコーディングモデルの利点を見落としています。これらの制限を認識し、効率的かつ軽量な解決策への需要に対応するために、MobileUNETRを導入しました。MobileUNETRはCNNとトランスフォーマー両方の性能制約を克服し、モデルサイズを最小限に抑えつつ効率的な画像セグメンテーションを目指します。MobileUNETRには3つの主要な特徴があります。1) MobileUNETRは軽量なハイブリッドCNN-トランスフォーマーエンコーダーを採用しており、効率的に局所的な特徴抽出と全体的なコンテキスト理解とのバランスを取ります;2) 新たなハイブリッドデコーダーが導入されており、デコード段階で異なる解像度での低レベル特徴と全体的な特徴を同時に利用することで正確なマスク生成を行います;3) 大規模かつ複雑なアーキテクチャを超えて、MobileUNETRは300万パラメータと1.3 GFLOP(ギガフロップ)という計算量で優れた性能を達成しており、それぞれパラメータ数とFLOPS(浮動小数点演算回数)において10倍と23倍の削減を実現しています。我々が提案する手法の有効性を検証するために、ISIC 2016, ISIC 2017, ISIC 2018, およびPH2データセットを含む4つの公開皮膚病変セグメンテーションデータセット上で広範な実験が行われました。本研究に関連するコードは以下のURLから公開されます: https://github.com/OSUPCVLab/MobileUNETR.git