2달 전

MaxViT-UNet: 의료 이미지 세그멘테이션을 위한 다축 주의 메커니즘

Khan, Abdul Rehman ; Khan, Asifullah
MaxViT-UNet: 의료 이미지 세그멘테이션을 위한 다축 주의 메커니즘
초록

컨벌루션 신경망(CNNs)이 등장한 이후로, 의료 이미지 분석 분야에서 상당한 발전을 이루어냈습니다. 그러나 컨벌루션 연산자의 국소적 특성은 전역적이고 장거리 상호작용을 포착하는 데 한계를 초래할 수 있습니다. 최근에 트랜스포머는 컴퓨터 비전 분야뿐만 아니라 의료 이미지 세그멘테이션에서도 인기를 얻고 있으며, 이는 전역적인 특성을 효과적으로 처리할 수 있는 능력 때문입니다. 하지만 자기 주의 메커니즘(self-attention mechanism)의 확장성 문제와 CNN과 같은 귀납 편향(inductive bias) 부족으로 인해 트랜스포머의 채택이 제한되어 왔습니다. 따라서, 컨벌루션과 자기 주의 메커니즘의 장점을 활용한 하이브리드 비전 트랜스포머(CNN-트랜스포머)가 중요해졌습니다.본 연구에서는 MaxViT-UNet이라는 새로운 인코더-디코더 기반의 UNet 유형 하이브리드 비전 트랜스포머(CNN-트랜스포머)를 소개합니다. 제안된 하이브리드 디코더는 각 디코딩 단계에서 컨벌루션과 자기 주의 메커니즘의 힘을 최대한 활용하면서도 비교적 적은 메모리와 계산 부담으로 설계되었습니다. 각 디코더 단계 내에서 다축 자기 주의(multi-axis self-attention)를 포함함으로써 객체 영역과 배경 영역 간의 구분 능력을 크게 향상시켜, 세그멘테이션 효율성을 개선하는 데 도움을 줍니다.하이브리드 디코더에서는 새로운 블록도 제안되었습니다. 융합 과정은 전치 컨벌루션(transpose convolution)을 통해 얻은 저수준 디코더 특징들을 업샘플링하여 하이브리드 인코더에서 파생된 스킵 연결(skip-connection) 특징들과 통합하는 것으로 시작됩니다. 그 다음, 융합된 특징들은 다축 주의 메커니즘(multi-axis attention mechanism)을 이용하여 정교하게 가공됩니다. 제안된 디코더 블록은 핵(nuclei) 영역을 점진적으로 세그멘테이션하기 위해 여러 번 반복됩니다.MoNuSeg18 및 MoNuSAC20 데이터셋에 대한 실험 결과는 제안된 기술의 효과성을 입증하였습니다.

MaxViT-UNet: 의료 이미지 세그멘테이션을 위한 다축 주의 메커니즘 | 최신 연구 논문 | HyperAI초신경