당뇨병성 망막병증 진단을 위한 딥러닝 아키텍처
수년 동안 컨볼루션 신경망(Convolutional Neural Networks)은 컴퓨터 비전 분야, 특히 의료 분야에서 주도적인 역할을 해왔다. 이미지 세그멘테이션과 같은 문제들은 U-Net과 같은 네트워크 구조를 통해 해결되어 왔다. 이후 ViT(Visual Transformer)를 통해 자기 주의(Self-attention) 기반의 네트워크가 컴퓨터 비전 분야에 도입되면서, 기존의 표준 컨볼루션을 사용하는 방식의 흐름이 변화하고 있다. 본 연구에서는 의료 영상 세그멘테이션 문제에 대해 U-Net, ViT, ConvMixer 등 다양한 아키텍처를 적용하여 성능을 비교하였다. 모든 모델은 DRIVE 데이터셋에서 처음부터 학습되었으며, 각각의 개인 데이터셋(Private counterparts)에서 평가되어 어떤 모델이 세그멘테이션 작업에서 더 우수한 성능을 보이는지 검증하였다. 본 연구의 주요 기여점은, 최고의 성능을 보인 모델(ConvMixer)이 ViT의 접근 방식(이미지를 패치 단위로 처리)을 채택하면서도 U-Net의 기본 블록인 컨볼루션을 유지하고 있음을 보여주는 데 있다. 이러한 혼합 구조는 ViT(UNetR/Swin-Unet: DICE=0.80/0.077)와 U-Net(DICE=0.82) 각각을 독립적으로 사용했을 때보다 더 우수한 결과(DICE=0.83)를 도출할 뿐 아니라, 파라미터 수를 크게 줄였다(2.97M 대비 104M/27M 및 31M). 이는 이미지 문제를 해결하기 위해 반드시 대규모 모델을 사용할 필요가 없으며, 최적의 구성 요소를 갖춘 소규모 아키텍처만으로도 더 나은 성능을 달성할 수 있음을 시사한다.