심층 특징과 경사 부스팅 방법의 앙상블을 이용한 조직병리학적 영상 기반 유방 종양 분류

전 세계적으로 여성에서 가장 흔한 암은 유방암이다. 유방암의 조기 진단은 치료 효율을 크게 향상시킬 수 있다. 이러한 맥락에서 컴퓨터 지원 진단(CAD) 시스템은 신뢰성, 정확성 및 경제성 측면에서 널리 채택되고 있다. 유방암 진단을 위한 다양한 영상 기술이 존재하지만, 본 연구에서 사용된 가장 정확한 기법 중 하나는 조직병리학(histopathology)이다. 제안된 CAD 시스템의 특징 추출기로서는 딥 피처 전이 학습(Deep feature transfer learning)이 주요 아이디어로 활용되었다. 본 연구에서는 16종의 사전 학습된 네트워크를 실험하였으나, 주요 초점은 분류 단계에 두었다. 다양한 CNN 모델 중에서 잔차(Residual) 구조와 인셉션(Inception) 구조를 결합한 Inception-ResNet-v2 모델이 유방암 조직병리학 이미지에 대한 특징 추출 능력에서 가장 우수한 성능을 보였다. 분류 단계에서는 CatBoost, XGBoost, LightGBM의 앙상블(ensemble)이 가장 높은 평균 정확도를 제공하였다. 제안된 방법의 평가를 위해 BreakHis 데이터셋이 사용되었으며, 이 데이터셋은 4가지 확대율(40x, 100x, 200x, 400x)에서 총 7,909장의 조직병리학 이미지(양성 2,480장, 악성 5,429장)를 포함하고 있다. 제안된 방법(IRv2-CXL)은 각 확대율에서 BreakHis 데이터셋의 70%를 학습용으로 사용했을 때, 각각 96.82%, 95.84%, 97.01%, 96.15%의 정확도를 기록하였다. 기존 자동 유방암 탐지 연구 대부분은 특징 추출에 집중해 왔으나, 본 연구는 분류 단계에 주목하였다. IRv2-CXL은 소프트 보팅(soft voting) 앙상블 기법을 활용하여 CatBoost, XGBoost, LightGBM의 장점을 통합함으로써 모든 확대율에서 우수하거나 경쟁 가능한 성능을 보였다.