Classification à queue longue des maladies du thorax sur radiographies thoraciques : une nouvelle étude de référence

Les examens d'imagerie, tels que la radiographie thoracique, produisent un petit ensemble de trouvailles courantes et un ensemble beaucoup plus vaste de trouvailles rares. Bien qu’un radiologue formé puisse apprendre à reconnaître les présentations visuelles des affections rares en étudiant quelques exemples représentatifs, former une machine à apprendre à partir d’une telle distribution « longue-taille » s’avère bien plus difficile, car les méthodes standards sont facilement biaisées en faveur des classes les plus fréquentes. Dans cet article, nous présentons une étude comparative complète du problème d’apprentissage longue-taille dans le domaine spécifique des maladies thoraciques à partir de radiographies thoraciques. Nous nous concentrons sur l’apprentissage à partir de données de radiographies thoraciques réparties naturellement, en visant à optimiser la précision de classification non seulement pour les classes « tête » courantes, mais aussi pour les classes « queue » rares mais critiques. Pour atteindre cet objectif, nous introduisons un nouveau benchmark exigeant pour les radiographies thoraciques, afin de stimuler la recherche sur le développement de méthodes d’apprentissage longue-taille pour la classification d’images médicales. Ce benchmark comprend deux jeux de données de radiographies thoraciques pour une classification à 19 et 20 classes de maladies thoraciques, comprenant des classes avec jusqu’à 53 000 images d’entraînement étiquetées et d’autres avec seulement 7 images étiquetées. Nous évaluons à la fois les méthodes classiques et les méthodes d’état de l’art pour l’apprentissage longue-taille sur ce nouveau benchmark, en analysant les aspects les plus bénéfiques de ces méthodes pour la classification d’images médicales à distribution longue-taille, et en synthétisant des perspectives pour la conception future d’algorithmes. Les jeux de données, les modèles entraînés et le code sont disponibles à l’adresse suivante : https://github.com/VITA-Group/LongTailCXR.