テキストプロンプトを用いた空間共変画像登録

医療画像は、構造的な解剖学的表現と空間的に不均一なコントラストを特徴としている。神経ネットワークに解剖学的事前知識(anatomical priors)を活用することで、リソース制約のある臨床現場における画像処理の実用性が大きく向上する。既存の研究では、このような情報を画像セグメンテーションに活用する試みがなされてきたが、変形画像登録(deformable image registration)における進展は限定的であった。本研究では、空間的に共変性を持つフィルタと、視覚言語モデルによって符号化されたテキストによる解剖学的プロンプトを統合する新規手法「textSCF」を提案する。このアプローチは、解剖学的領域のテキスト埋め込みとフィルタ重みとの間の暗黙関数を最適化することで、従来の畳み込み演算における並進不変性(translation-invariance)の制約を緩和する。textSCFは計算効率を向上させるだけでなく、登録精度を維持または向上させることが可能である。解剖学的領域間の文脈的相互作用を捉えることで、領域間の転移性(inter-regional transferability)が顕著に向上し、登録過程における構造的不連続性の保持も可能となる。textSCFの性能は、被験者間脳MRIおよび腹部CTの登録タスクにおいて厳密に評価され、MICCAI Learn2Reg 2021チャレンジにおいて既存の最先端モデルを上回り、リーダーボードをリードした。腹部登録において、textSCFの大規模バージョンは、2番目に優れたモデルと比較してDiceスコアを11.3%向上させた。一方、小規模バージョンは類似の精度を維持しつつ、ネットワークパラメータを89.13%削減し、計算演算量を98.34%削減した。