TransNetR: Transformerを基にした残差ネットワークによるポリープ分割と多施設外分布テスト

大腸内視鏡検査は、大腸がん(CRC)とその前癌病変であるポリープを検出する最も効果的なスクリーニングテストと考えられています。しかし、ポリープの多様性や観察者間の依存性により、この手順では高い見逃し率が報告されています。したがって、臨床実践におけるポリープ検出とセグメンテーションの重要性に鑑みて、深層学習を活用した複数のシステムが提案されています。これらの自動化された手法は改善された結果を達成していますが、リアルタイム処理速度の達成において効率が低いという問題があります。さらに、異なる施設で収集されたデータなど、患者間データでの評価では性能低下が顕著です。そこで、私たちは新しいリアルタイム深層学習ベースのアーキテクチャであるトランスフォーマー基盤残差ネットワーク(TransNetR)を開発し、その診断性能を評価することを目指しています。提案されるTransNetRアーキテクチャはエンコーダー-デコーダーネットワークであり、事前学習済みのResNet50をエンコーダーとして使用し、3つのデコーダーブロックとネットワーク終端にあるアップサンプリング層から構成されています。Kvasir-SEGデータセットにおいて、TransNetRは0.8706という高いダイス係数と0.8016という平均IoU(Intersection over Union)を達成し、リアルタイム処理速度54.60フレーム/秒を維持しています。また、本研究の主要な貢献点は、TransNetRの汎化能力を探ることにあります。具体的には、提案アルゴリズムを未知かつ訓練分布とは異なるテスト分布(out-of-distribution)データセットで試験しました。ユースケースとして、私たちが提案するアルゴリズムをPolypGen(6つの独自施設)、および他の2つの人気のあるポリープセグメンテーションベンチマークデータセットで試験しました。これら3つのデータセットでのout-of-distributionテストにおいて最先端の性能を得ることができました。TransNetRのソースコードは公開され、https://github.com/DebeshJha からアクセスできます。