Extraction de caractéristiques pour l'évaluation des images médicales génératives : de nouvelles preuves contre une tendance en évolution

La distance de Fréchet Inception (FID) est une métrique largement utilisée pour évaluer la qualité des images synthétiques. Elle repose sur un extracteur de caractéristiques entraîné sur ImageNet, ce qui rend son application à l'imagerie médicale incertaine. Une tendance récente consiste à adapter la FID à l'imagerie médicale en utilisant des extracteurs de caractéristiques entraînés sur des images médicales. Notre étude remet en question cette pratique en démontrant que les extracteurs basés sur ImageNet sont plus cohérents et mieux alignés avec l'évaluation humaine que leurs homologues entraînés sur RadImageNet. Nous avons évalué seize réseaux StyleGAN2 sur quatre modalités d'imagerie médicale et quatre techniques d'augmentation de données, en calculant des distances de Fréchet (FD) à l’aide de onze extracteurs de caractéristiques entraînés sur ImageNet ou RadImageNet. Une comparaison avec l’évaluation humaine via des tests visuels de Turing a révélé que les extracteurs basés sur ImageNet produisent des classements cohérents avec l’opinion humaine, la FD issue de l’extracteur SwAV entraîné sur ImageNet étant significativement corrélée aux évaluations d’experts. En revanche, les classements fondés sur RadImageNet s’avèrent instables et incohérents avec l’évaluation humaine. Nos résultats remettent en cause des hypothèses largement répandues, fournissant une preuve nouvelle selon laquelle les extracteurs entraînés sur des images médicales ne s’améliorent pas nécessairement la FID, et peuvent même compromettre sa fiabilité. Notre code est disponible à l’adresse suivante : https://github.com/mckellwoodland/fid-med-eval.