QTSeg: クエリトークンに基づく双方向混合注意枠組みと多段階特徴分布を用いた医療画像セグメンテーション

医療画像セグメンテーションは、医療専門家が正確な診断を行うのを支援し、自動診断プロセスを可能にする上で重要な役割を果たしています。従来の畳み込みニューラルネットワーク(CNN)は長距離依存関係の捕捉に苦労することが多い一方で、トランスフォーマーに基づくアーキテクチャはその有効性にもかかわらず計算複雑度が高くなるという問題があります。最近の研究では、CNNとトランスフォーマーを組み合わせて性能と効率のバランスを取ることに焦点を当てていますが、既存の手法は高いセグメンテーション精度を維持しながら低い計算コストを達成するという課題に対処できていないのが現状です。さらに、多くの方法は局所的な空間情報を捉えるCNNエンコーダーの能力を十分に活用せず、主に長距離依存関係の問題軽減に重点を置いています。これらの制約に対処するために、私たちはQTSegという新しいアーキテクチャを提案します。QTSegは局所情報と全局情報を効果的に統合しており、デュアルミックスアテンションデコーダーが特徴となっています。このデコーダーは以下の機能によりセグメンテーション性能を向上させます:(1) 特徴量のより良いアライメントのためにクロスアテンションメカニズムを使用し、(2) 長距離依存関係を捉えるための空間アテンションモジュールと、(3) チャンネル間関係を学習するチャンネルアテンションブロックです。また、エンコーダーとデコーダー間での特徴量伝播のバランスを適応的に調整するマルチレベル特徴分布モジュールも導入しています。これにより性能がさらに向上します。5つの公開データセット(病変、ポリープ、乳癌、細胞、網膜血管セグメンテーションなど多様なタスク)における広範な実験結果から、QTSegは複数の評価指標において最先端手法を超える性能を示しつつも低い計算コストを維持していることが確認されました。私たちの実装は以下から入手できます:https://github.com/tpnam0901/QTSeg (v1.0.0)