
本研究では、2016年JAMA誌に掲載された「網膜眼底写真における糖尿病網膜症検出のためのディープラーニングアルゴリズムの開発と検証」(JAMA 2016; 316(22))の結果を、公開されているデータセットを用いて再現することを試みた。元論文のソースコードは公開されていないため、主な手法を再実装した。元論文では、EyePACSおよびインドの3施設の非公開眼底画像を用いて学習を行ったが、本研究ではKaggleから入手可能な別バージョンのEyePACSデータセットを用いた。また、元論文ではアルゴリズムの性能評価に「Messidor-2」ベンチマークデータセットを用いていたが、元データは現在利用不可であるため、別の分布をもつMessidor-2データセットを採用した。さらに、元論文では眼科医による画像の再評価が糖尿病網膜症、黄斑浮腫、画像評価可能性の3項目についてすべて行われていたが、本研究では各画像について1つの糖尿病網膜症診断ラベルのみを用い、画像評価可能性については自ら評価した。公開データセットを用いても、元論文の結果を再現することはできなかった。本研究のアルゴリズムは、Kaggle版EyePACSテストセットにおいてAUC 0.951(95%信頼区間:0.947~0.956)、Messidor-2データセットにおいてAUC 0.853(95%信頼区間:0.835~0.871)を達成したが、元論文で報告された両テストセットにおけるAUC 0.99には著しく届かなかった。この差異は、画像1枚あたりのラベルが1つである点や、データセットの違いが原因である可能性がある。本研究は、ディープラーニング手法の結果再現における課題を示しており、特に医療画像解析におけるディープラーニング手法の検証のため、さらなる再現研究の必要性を強調している。本研究のソースコードおよび実行手順は、以下のURLで公開されている:https://github.com/mikevoets/jama16-retina-replication。