HyperAIHyperAI
il y a 18 jours

Étude de réplication utilisant des données publiques de : Développement et validation d’un algorithme d’apprentissage profond pour la détection de la rétinopathie diabétique sur des photographies de fond d’œil

{Kajsa Møllersen, Mike Voets, Lars Ailo Bongo}
Étude de réplication utilisant des données publiques de : Développement et validation d’un algorithme d’apprentissage profond pour la détection de la rétinopathie diabétique sur des photographies de fond d’œil
Résumé

Nous avons tenté de reproduire les résultats publiés dans « Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs », paru dans JAMA en 2016 (316(22)), en utilisant des jeux de données disponibles publiquement. Nous avons réimplémenté la méthode principale de l’étude originale, car le code source n’était pas disponible. L’étude initiale a utilisé des images fundus non publiques provenant d’EyePACS et de trois hôpitaux en Inde pour l’entraînement. Nous avons utilisé un jeu de données EyePACS différent, issu de Kaggle. L’étude originale a évalué la performance de l’algorithme à l’aide du jeu de données de référence Messidor-2. Nous avons utilisé une autre distribution du jeu de données Messidor-2, car l’ensemble de données original n’est plus disponible. Dans l’étude initiale, des ophtalmologistes ont réévalué toutes les images pour le diabète rétinien, l’œdème maculaire et la qualité d’image. Pour nos jeux de données, nous disposons d’une seule évaluation de diabète rétinien par image, et nous avons évalué nous-mêmes la qualité des images. Nous n’avons pas pu reproduire les résultats de l’étude originale à l’aide de données disponibles publiquement. Le score AUC (aire sous la courbe ROC) de notre algorithme de 0,951 (IC à 95 % : 0,947–0,956) sur le jeu de test Kaggle EyePACS et de 0,853 (IC à 95 % : 0,835–0,871) sur Messidor-2 s’écarte considérablement de l’AUC rapportée de 0,99 sur les deux jeux de test dans l’étude originale. Cette différence pourrait être due à l’utilisation d’une seule évaluation par image ou à des différences dans les données. Cette étude met en évidence les difficultés inhérentes à la reproduction des résultats obtenus avec des méthodes d’apprentissage profond, et souligne la nécessité de mener davantage d’études de réplication et de reproduction afin de valider ces méthodes, en particulier dans le domaine de l’analyse d’images médicales. Notre code source et les instructions d’utilisation sont disponibles à l’adresse suivante : https://github.com/mikevoets/jama16-retina-replication.