Merkmalsextraktion für die Bewertung generativer medizinischer Bilder: Neue Beweise gegen eine sich entwickelnde Trendentwicklung

Der Fréchet-Inception-Distance (FID) ist ein weit verbreiteter Metrik zur Bewertung der Qualität synthetischer Bilder. Er basiert auf einem Feature-Extractor, der auf ImageNet trainiert wurde, wodurch seine Anwendbarkeit im Bereich der medizinischen Bildgebung unklar bleibt. In jüngster Zeit wird der FID zunehmend an medizinische Bildgebung angepasst, indem Feature-Extractor verwendet werden, die auf medizinischen Bildern trainiert wurden. In unserer Studie stellen wir diese Praxis in Frage, indem wir nachweisen, dass ImageNet-basierte Extractoren konsistenter und besser mit menschlicher Beurteilung übereinstimmend sind als ihre RadImageNet-Entsprechungen. Wir evaluierten sechzehn StyleGAN2-Netzwerke über vier medizinische Bildmodality und vier Techniken zur Datenaugmentation mittels Fréchet-Distanzen (FDs), die mithilfe von elf auf ImageNet oder RadImageNet trainierten Feature-Extractoren berechnet wurden. Ein Vergleich mit menschlicher Beurteilung durch visuelle Turing-Tests zeigte, dass die ImageNet-basierten Extractoren Rankings erzeugten, die mit der menschlichen Beurteilung übereinstimmten, wobei die FD, die aus dem auf ImageNet trainierten SwAV-Extractor abgeleitet wurde, signifikant mit Expertenbewertungen korrelierte. Im Gegensatz dazu waren die Rankings, die auf RadImageNet-basierten Extractoren basierten, instabil und widersprachen der menschlichen Beurteilung. Unsere Ergebnisse stellen gängige Annahmen in Frage und liefern neue Evidenz dafür, dass Feature-Extractoren, die auf medizinischen Bildern trainiert wurden, den FID nicht zwangsläufig verbessern und dessen Zuverlässigkeit sogar beeinträchtigen können. Unser Code ist unter https://github.com/mckellwoodland/fid-med-eval verfügbar.