지식 증류를 통해 학습된 소규모 조직학적 데이터셋을 위한 비전 트랜스포머

계산 기반 병리학(CPATH) 시스템은 진단 작업을 자동화할 잠재력을 지닌다. 그러나 디지털화된 조직 유리 슬라이드, 즉 전체 슬라이드 이미지(Whole Slide Images, WSIs)에 존재하는 아티팩트는 CPATH 시스템의 전반적인 성능을 저해할 수 있다. 비전 트랜스포머(Vision Transformers, ViTs)와 같은 딥러닝(DL) 모델은 진단 알고리즘을 실행하기 전에 아티팩트를 탐지하고 제거할 수 있다. 강건하고 일반화된 ViT를 개발하는 간단한 방법은 대규모 데이터셋에서 학습하는 것이다. 그러나 대규모 의료 데이터셋을 확보하는 것은 비용이 많이 들고 불편하기 때문에, WSIs에 대한 일반화된 아티팩트 탐지 방법의 필요성이 대두된다. 본 논문에서는 공기 기포 탐지 작업에서 ViT의 분류 성능을 향상시키기 위한 학습자-교사(student-teacher) 프레임워크를 제안한다. 학습자-교사 프레임워크 하에서 학습된 ViT는 고용량의 교사 모델로부터 기존 지식을 정제(distill)함으로써 성능을 향상시킨다. 제안된 최적의 ViT 모델은 각각 F1 점수 0.961과 MCC( Matthews 상관계수) 0.911을 기록하며, 독립적 학습 대비 MCC에서 약 7%의 성능 향상을 달성했다. 본 연구에서 제안하는 방법은 전이 학습(transfer learning)을 넘어서 지식 정제(knowledge distillation)를 활용한 새로운 관점을 제시하며, CPATH 시스템 내 효율적인 사전처리 파이프라인 구축을 위한 맞춤형 트랜스포머의 활용을 촉진할 수 있다.