텍스트 프롬프트를 활용한 공간적 공변 이미지 등록

의료 영상은 일반적으로 구조적인 해부학적 표현과 공간적으로 비균일한 대조도를 특징으로 한다. 신경망에 해부학적 사전 지식을 활용하면 자원이 제한된 임상 환경에서의 활용도를 크게 향상시킬 수 있다. 기존 연구들은 이러한 정보를 영상 분할에 활용해 왔지만, 비정형 영상 등록 분야에서는 진전이 미미했다. 본 연구에서는 시공간 공변 필터와 시각-언어 모델을 통해 인코딩된 텍스트 기반 해부학적 프롬프트를 결합한 새로운 방법인 textSCF를 제안한다. 이 방법은 해부학적 영역의 텍스트 임베딩과 필터 가중치 간의 은닉된 함수를 최적화함으로써, 기존 합성곱 연산에서 일반적으로 적용되는 평행 이동 불변성 제약을 완화한다. textSCF는 계산 효율성을 크게 향상시키는 동시에 등록 정확도를 유지하거나 향상시킬 수 있다. 해부학적 영역 간의 맥락적 상호작용을 효과적으로 포착함으로써 뛰어난 영역 간 전이성과 등록 과정에서 구조적 불연속성을 유지할 수 있는 능력을 제공한다. textSCF의 성능은 인체 간 뇌 MRI 및 복부 CT 등록 작업에서 철저히 검증되었으며, MICCAI Learn2Reg 2021 챌린지에서 기존 최고 수준의 모델들을 모두 능가하며 리더보드를 선도하고 있다. 복부 등록 사례에서는 textSCF의 대형 모델 버전이 두 번째로 우수한 모델 대비 Dice 점수를 11.3% 향상시켰으며, 소형 모델 버전은 유사한 정확도를 유지하면서 네트워크 파라미터는 89.13% 감소하고 계산 연산은 98.34% 감소시키는 놀라운 효율성을 보였다.