11 天前
生成式医学影像评估中的特征提取:对一种新兴趋势的新证据反驳
McKell Woodland, Austin Castelo, Mais Al Taie, Jessica Albuquerque Marques Silva, Mohamed Eltaher, Frank Mohn, Alexander Shieh, Suprateek Kundu, Joshua P. Yung, Ankit B. Patel, Kristy K. Brock

摘要
弗雷歇 inception 距离(Fréchet Inception Distance, FID)是一种广泛用于评估生成图像质量的指标。该方法依赖于基于 ImageNet 训练的特征提取器,因此其在医学影像领域的适用性尚不明确。近年来,一种趋势是通过在医学影像数据上训练的特征提取器来适应 FID 以用于医学图像评估。然而,本研究对此做法提出质疑,结果表明,基于 ImageNet 训练的特征提取器在一致性与人类判断的契合度方面,优于其对应的 RadImageNet 提取器。我们评估了十六个 StyleGAN2 生成网络,在四种医学影像模态及四种数据增强技术下,采用十一组基于 ImageNet 或 RadImageNet 训练的特征提取器计算弗雷歇距离(Fréchet Distance, FD)。通过视觉图灵测试(visual Turing test)与人类主观判断进行对比分析发现,基于 ImageNet 的提取器所生成的排名与人类判断高度一致,其中基于 ImageNet 训练的 SwAV 提取器所计算的 FD 与专家评价之间表现出显著相关性。相比之下,基于 RadImageNet 的提取器所生成的排名则波动较大,且与人类判断不一致。本研究结果挑战了当前普遍存在的假设,提供了新的实证证据:在医学影像上训练的特征提取器并不必然提升 FID 的有效性,甚至可能削弱其可靠性。本研究代码已公开,可访问 https://github.com/mckellwoodland/fid-med-eval。