17日前

医療画像セグメンテーションのためのマルチスケール階層型ビジョンTransformerとカスケードアテンションデコード

Md Mostafijur Rahman, Radu Marculescu
医療画像セグメンテーションのためのマルチスケール階層型ビジョンTransformerとカスケードアテンションデコード
要約

トランスフォーマーは、医療画像セグメンテーションにおいて大きな成功を収めてきた。しかし、単一スケールの自己注意(Self-Attention, SA)機構に起因する構造的制約により、トランスフォーマーは一般化能力に限界を示すことがある。本論文では、この課題に対処するため、複数スケールでのSA計算を可能にするマルチスケール階層型ビジョントランスフォーマー(Multi-scale hiERarchical vIsion Transformer, MERIT)という新たなバックボーンネットワークを提案する。MERITは、複数スケールでの自己注意機構を用いることで、モデルの一般化能力を向上させる。さらに、MERITによって生成される多段階特徴量の精緻化を図るため、注意機構を活用したデコーダー「カスケード注意デコーディング(Cascaded Attention Decoding, CASCADE)」を導入する。最後に、暗黙的なアンサンブルを実現する多段階特徴量混合損失集約法(Multi-stage feature mixing loss aggregation, MUTATION)を提案し、より効果的なモデル学習を実現する。本研究では、広く用いられる2つの医療画像セグメンテーションベンチマーク(Synapse多臓器データセット、ACDC)における実験により、MERITが最先端手法を上回る優れた性能を発揮することを実証した。本研究で提案するMERITアーキテクチャおよびMUTATION損失集約法は、下流の医療画像セグメンテーションおよびセマンティックセグメンテーションタスクへの応用が可能である。