공개 데이터를 활용한 재현 연구: 망막 기저 사진에서 당뇨병성 망막병증 탐지용 딥러닝 알고리즘의 개발 및 검증

우리는 2016년 JAMA에 게재된 「안저 사진에서 당뇨병성 망막병증 탐지에 대한 딥러닝 알고리즘의 개발 및 검증」 논문의 결과를 공개된 데이터셋을 이용하여 재현해보기 위해 노력했다. 원본 연구의 소스 코드가 공개되지 않았기 때문에, 주요 방법을 재구현하였다. 원본 연구는 미국의 EyePACS 및 인도의 세 개 병원에서 제공한 비공개 안저 이미지를 학습에 사용하였다. 본 연구에서는 Kaggle에서 제공하는 다른 EyePACS 데이터셋을 사용하였다. 원본 연구는 알고리즘 성능 평가를 위해 Messidor-2 기준 데이터셋을 활용하였으나, 해당 데이터셋이 더 이상 공개되지 않아, 다른 배포 버전의 Messidor-2 데이터셋을 사용하였다. 원본 연구에서는 안과 전문의들이 모든 이미지에 대해 당뇨병성 망막병증, 망막부종 및 이미지 평가 가능성(gradation quality)을 재평가하였다. 본 연구에서는 각 이미지에 대해 하나의 당뇨병성 망막병증 등급만을 보유하고 있으며, 이미지 평가 가능성은 자체적으로 평가하였다. 공개된 데이터셋만을 이용하여 원본 연구의 결과를 재현하는 데에는 실패하였다. 본 연구의 알고리즘은 Kaggle EyePACS 테스트 세트에서 ROC 곡선 아래 면적(AUC)이 0.951(95% 신뢰구간, 0.947–0.956)이며, Messidor-2에서는 0.853(95% 신뢰구간, 0.835–0.871)으로 나타났으나, 원본 연구에서 보고한 두 테스트 세트 모두에서의 AUC 0.99에는 크게 미치지 못하였다. 이는 이미지당 단일 등급의 사용이나 데이터의 차이로 인한 것으로 판단된다. 본 연구는 딥러닝 기법의 결과 재현이 직면한 도전 과제를 보여주며, 특히 의료 영상 분석 분야에서 딥러닝 기법의 신뢰성 확보를 위해 더 많은 재현 연구 및 복제 연구가 필요함을 시사한다. 본 연구의 소스 코드 및 사용 가이드는 다음 링크에서 확인할 수 있다: https://github.com/mikevoets/jama16-retina-replication.