EfficientMorph: 3D画像登録のためのパラメータ効率的なトランスフォーマーに基づくアーキテクチャ

トランスフォーマーは、医療画像レジストレーションの最先端アーキテクチャとして登場し、畳み込みニューラルネットワーク(CNN)が持つ受容野の制限や深層モデルにおける勾配不安定性を解決することで、その性能を上回っています。しかし、トランスフォーマーに基づくモデルは、データ、メモリ、計算能力など多大なリソースを必要とするため、リソースに制約のあるエンドユーザーにとって適用が難しい場合があります。特に、既存のトランスフォーマーに基づく3D画像レジストレーションアーキテクチャには、効率と有効性に挑戦する2つの重要な課題があります。第一に、窓ベースの注意機構は完全な注意の二次複雑さを局所領域に焦点を当てることで軽減しますが、局所情報と全体情報を効果的に統合することがしばしば困難です。第二に、トークン化の粒度(granularity of tokenization)はレジストレーション精度において重要な要素ですが、性能上のトレードオフを呈しています:小さなボクセルサイズのトークンは詳細の捉え方を向上させますが、計算複雑さの増加、メモリ使用量の増大、および過学習リスクの高まりにつながります。本稿では\nameを提案します。これは無教師3D画像レジストレーション用のトランスフォーマーベースアーキテクチャで、平面ベースの注意機構を通じて3Dボリューム内の局所注意と全体注意のバランスを取りつつ、Hi-Resトークン化戦略とマージ操作を使用して細部を捉えつつ計算効率を損なわないように設計されています。特に注目に値するのは、\nameがOASISデータセットでの性能において16〜27倍少ないパラメータ数で新たなベンチマークを樹立したことです。https://github.com/MedVIC-Lab/Efficient_Morph_Registration