SPCXR: 흉부 X선을 활용한 자기지도 학습 기반 사전 훈련을 통한 도메인 특화 기반 모델 개발

흉부 X선 촬영(CXRs)은 폐 질환의 진단 및 예후 평가에 널리 사용되는 영상 검사 방식이다. 영상 분석 작업은 다양하며, 병변 탐지 및 폐 영역 분할 등이 대표적이다. 기계 학습 알고리즘을 특정 작업에 맞춰 개발한 연구는 다수 존재한다. 최근 대표적인 사례로는 CXR 데이터를 활용한 코로나19 감염병 탐지가 있다. 그러나 전통적인 감독 학습 기반 진단 도구 설계 방식은 높은 품질의 학습 데이터 레이블링이 필수적이며, 이는 보다 우수한 임상 결과를 얻기 위해 반드시 필요하다는 부담을 수반한다. 본 연구에서는 이러한 문제를 해결하기 위해 새로운 자기지도 학습(self-supervised) 패러다임을 제안한다. 이는 그룹 마스크를 활용한 자기지도 학습 프레임워크를 통해 CXR 이미지에서 일반적인 표현(representation)을 학습하는 방식이다. 사전 학습된 모델은 코로나19 및 폐렴 탐지와 같은 도메인 특화 작업, 일반 건강 검진 등에 대해 미세 조정(fine-tuning)이 가능하다. 또한 동일한 사전 학습 모델이 폐 분할 작업에도 효과적으로 활용될 수 있음을 보여준다. 제안하는 패러다임은 다양한 후속 작업에서 뛰어난 성능을 보이며 사전 학습의 성공을 입증한다. 특히, 테스트 시점에서 데이터 분포의 큰 변화(드리프트)가 발생하는 경우에도 사전 학습된 모델이 우수한 성능을 유지함으로써, 더 일반화된 표현을 효과적으로 학습했다는 점을 입증한다. 본 방법은 독특한 소규모 소아 환자 데이터셋에서 코로나19 탐지에 대해 추가로 검증되었으며, 감독 학습 기반의 트랜스포머 기반 모델 대비 정확도에서 약 25%의 성능 향상이 나타났다. 이는 제안하는 프레임워크와 사전 학습 전략의 강력함과 신뢰성에 대한 중요한 근거를 제공한다.