HiFuse: 의료 영상 분류를 위한 계층적 다중 스케일 특징 융합 네트워크

의료 영상 분류는 합성곱 신경망(Convolutional Neural Network, CNN)의 발전에 힘입어 급속도로 발전해왔다. 그러나 합성곱 커널의 수용장(Receptive Field) 크기가 고정되어 있어 의료 영상의 전역 특징을 효과적으로 포착하기 어렵다는 한계가 있다. 비록 자기주의(Self-attention) 기반의 트랜스포머(Transformer)는 장거리 의존성을 모델링할 수 있지만, 높은 계산 복잡도와 지역적 인도크티브 편향(Inductive Bias)의 부족이라는 문제를 안고 있다. 많은 연구에서 전역 특징과 지역 특징이 영상 분류에 있어 핵심적임이 입증되었다. 그러나 의료 영상은 노이즈가 많고 분산된 특징, 클래스 내 변동성, 클래스 간 유사성이 높다는 특징을 지닌다. 본 논문에서는 이러한 문제를 해결하기 위해, 새로운 방법으로 'HiFuse(Hierarchical Multi-scale Feature Fusion)'라는 세 가지 분기의 계층적 다중 스케일 특징 융합 네트워크 구조를 제안한다. 이 구조는 트랜스포머와 CNN의 장점을 다중 스케일 계층에서 융합하면서 각 모델의 특성은 유지함으로써 다양한 의료 영상의 분류 정확도를 향상시킬 수 있다. 지역 특징 블록과 전역 특징 블록의 병렬 계층 구조를 설계하여 다양한 의미적 스케일에서 지역 특징과 전역 표현을 효율적으로 추출하며, 다양한 스케일에서 모델링이 가능하고 이미지 크기에 비례하는 선형 계산 복잡도를 갖는다. 또한, 다양한 계층 수준에서 얻은 특징을 종합적으로 활용하기 위해 적응형 계층적 특징 융합 블록(Adaptive Hierarchical Feature Fusion Block, HFF 블록)을 제안한다. HFF 블록은 공간적 주의(Spatial Attention), 채널 주의(Channel Attention), 잔차 역전 MLP(Residual Inverted MLP), 그리고 단순 연결(Shortcut)을 포함하여 각 분기의 다양한 스케일 특징 간의 의미 정보를 적응적으로 융합할 수 있다. 제안된 모델은 ISIC2018 데이터셋에서 기준 모델 대비 정확도가 7.6% 향상되었으며, 코로나19 데이터셋에서는 21.5%, Kvasir 데이터셋에서는 10.4% 향상되었다. 다른 최신 모델들과 비교했을 때 HiFuse 모델이 가장 우수한 성능을 보였다. 본 연구의 코드는 오픈소스로 공개되어 있으며, https://github.com/huoxiangzuo/HiFuse 에서 확인할 수 있다.