형태학적 특성에 기반한 설명 가능성 제공을 위한 대규모 다영역 백혈병 데이터셋: 백혈구 탐지용

백혈병의 조기 진단은 매년 수천 명의 생명을 구할 수 있다. 백혈병의 예후는 백혈구(WBC)의 형태학적 정보가 없으면 매우 어렵고, 고가의 현미경과 혈액학자들이 외부 혈액 검체(PBS)를 분석할 수 있는 여부에 크게 의존한다. 딥러닝 기반의 방법은 혈액학자들을 보조할 수 있다. 그러나 이러한 알고리즘은 레이블이 부여된 대량의 데이터를 필요로 하며, 이는 쉽게 확보되지 않는다. 이 제약을 극복하기 위해, 현실성 있고 일반화 가능한 대규모 데이터셋을 확보하였다. 실세계 응용을 위한 포괄적인 데이터셋을 수집하기 위해, 고가(HCM)와 저가(LCM)의 서로 다른 가격대의 현미경 두 대를 활용하여, 세 가지 배율(100x, 40x, 10x)에서 다양한 센서(고성능 카메라(HCM), 중급 카메라(LCM), 스마트폰 카메라(HCM 및 LCM 모두))를 통해 이미지를 촬영하였다. 고성능 카메라는 중급 카메라보다 47배 더 비싸며, HCM은 LCM보다 17배 더 비싸다. 본 촬영 과정에서 고해상도(100x)로 HCM을 사용하여, 경험이 풍부한 혈액학자들이 2,400장의 백혈병 환자 PBS 이미지에서 총 10.3천 개의 WBC 유형(14종)과 잡음(아티팩트)을 주석화하였으며, 세포 크기, 핵 염색질, 핵 모양 등 총 55천 개의 형태학적 레이블을 생성하였다. 이후 이 주석 정보는 HCM의 나머지 두 배율과 LCM의 세 배율, 그리고 각 카메라로 촬영된 이미지로 확장하였다. 본 연구에서는 LeukemiaAttri 데이터셋을 공개함과 동시에, 여러 객체 탐지기와 비지도 도메인 적응(UDA) 전략에 대한 베이스라인을 제시하며, 형태학적 정보 기반의 속성 예측 모델도 함께 제공한다. 본 데이터셋은 논문 게재 후 공개되어, 관련 분야의 연구를 촉진할 예정이다.