17일 전

의료 트랜스포머: 의료 영상 분할을 위한 게이트형 축 방향 주의 메커니즘

Jeya Maria Jose Valanarasu, Poojan Oza, Ilker Hacihaliloglu, Vishal M. Patel
의료 트랜스포머: 의료 영상 분할을 위한 게이트형 축 방향 주의 메커니즘
초록

지난 10년간 딥 컨볼루션 신경망은 의료 영상 분할 분야에서 널리 채택되어 적절한 성능을 보여왔다. 그러나 컨볼루션 아키텍처에 내재된 유도적 편향(Inductive biases)으로 인해 영상 내 장거리 의존성(long-range dependencies)을 이해하지 못하는 한계가 존재한다. 최근 제안된 트랜스포머 기반 아키텍처는 자기 주의(Self-attention) 메커니즘을 활용하여 장거리 의존성을 효과적으로 인코딩하고, 매우 표현력이 풍부한 표현을 학습할 수 있다. 이러한 특성은 트랜스포머 기반 솔루션의 탐색과 의료 영상 분할 작업에 트랜스포머 기반 네트워크 아키텍처를 활용할 수 있는 가능성에 대한 타당성을 탐구하려는 동기를 부여한다. 그러나 기존의 시각 응용 분야에 적용된 대부분의 트랜스포머 기반 아키텍처는 정확한 학습을 위해 대규모 데이터셋이 필요하다. 반면, 시각 응용 분야에 비해 의료 영상 분야의 데이터 샘플 수는 상대적으로 적어, 의료 응용을 위한 트랜스포머의 효율적인 학습이 어렵다. 이를 해결하기 위해, 본 연구에서는 자기 주의 모듈 내에 추가적인 제어 메커니즘을 도입함으로써 기존 아키텍처를 확장한 게이트드 액시얼-어텐션(Gated Axial-Attention) 모델을 제안한다. 또한, 의료 영상에서 모델을 효과적으로 학습시키기 위해 로컬-글로벌 학습 전략(Local-Global training strategy, LoGo)을 제안한다. 이 전략은 전체 영상과 영상 패치를 각각 활용하여 글로벌 및 로컬 특징을 동시에 학습한다. 제안된 의료용 트랜스포머(Medical Transformer, MedT)는 세 가지 다른 의료 영상 분할 데이터셋에서 평가되었으며, 기존 컨볼루션 기반 및 다른 트랜스포머 기반 아키텍처보다 우수한 성능을 달성함을 입증하였다. 코드: https://github.com/jeya-maria-jose/Medical-Transformer