3ヶ月前

FCB-SwinV2 Transformerによるポリープセグメンテーション

Kerr Fitzgerald, Bogdan Matuszewski
FCB-SwinV2 Transformerによるポリープセグメンテーション
要約

大腸内視鏡動画フレーム内のポリープセグメンテーションにおいて、ディープラーニングモデルを用いることで、臨床医のワークフローの自動化が可能となる。これにより、大腸がんに進行する可能性のあるポリープの早期発見率および特性評価が向上する可能性がある。近年の最先端ディープラーニングによるポリープセグメンテーションモデルでは、完全畳み込みネットワーク(Fully Convolutional Network: FCN)アーキテクチャとトランスフォーマー(Transformer)アーキテクチャを並列的に統合した手法が採用されている。本論文では、現在の最先端モデルであるFCBFormerに対して改良を加えた新しいモデル、FCB-SwinV2 Transformerを提案する。具体的には、FCBFormerのトランスフォーマー部をSwinV2 Transformer-UNETに置き換え、かつ完全畳み込みネットワーク部にも微小な改訂を加えることで、より高性能なモデルを構築した。提案モデルの性能は、代表的な大腸内視鏡セグメンテーションベンチマークデータセットであるKvasir-SEGおよびCVC-ClinicDB上で評価された。さらに汎化性能の検証も実施した。その結果、本モデルはすべてのテストにおいて一貫して高いmDiceスコアを達成し、新たな最先端性能を示した。また、既存の文献における大腸内視鏡セグメンテーションモデルの評価方法についても、問題点を指摘・議論した。特に重要な問題として、CVC-ClinicDBデータセットにおける評価において、トレーニング・バリデーション・テストデータの分割時に動画シーケンス間のデータ漏洩(data leakage)が発生しないよう、慎重なデータ分割戦略を採用することが望ましいことが明らかになった。