16日前
生成医療画像評価における特徴抽出:変化するトレンドに対する新たな証拠
McKell Woodland, Austin Castelo, Mais Al Taie, Jessica Albuquerque Marques Silva, Mohamed Eltaher, Frank Mohn, Alexander Shieh, Suprateek Kundu, Joshua P. Yung, Ankit B. Patel, Kristy K. Brock

要約
Fréchet Inception Distance(FID)は、合成画像の品質を評価する際に広く用いられる指標である。この指標はImageNetに基づく特徴抽出器に依存しているため、医療画像分野への適用可能性は不明確である。近年の動向として、医療画像で学習された特徴抽出器を用いてFIDを医療画像に適応させる取り組みが見られる。しかし本研究では、こうしたアプローチに疑問を呈し、ImageNetで学習された抽出器がRadImageNetで学習されたものよりも一貫性があり、人間の評価とより整合していることを実証した。本研究では、4種類の医療画像モダリティおよび4種類のデータ拡張手法を用いて、16のStyleGAN2ネットワークを評価し、11種類のImageNetまたはRadImageNetで学習された特徴抽出器を用いてFréchet距離(FD)を計算した。視覚的ターリングテストを用いた人間評価との比較により、ImageNetで学習された抽出器は人間の判断と整合性のある順位付けを示した。特に、ImageNetで学習されたSwAV抽出器から導かれたFDは、専門家評価と有意な相関を示した。一方、RadImageNetで学習された抽出器に基づく順位付けは不安定であり、人間の判断とは一致しなかった。これらの結果は、従来の前提を疑問視するものであり、医療画像で学習された特徴抽出器がFIDの性能を必然的に向上させるわけではないだけでなく、むしろその信頼性を損なう可能性があるという新たな証拠を提供している。本研究のコードは、https://github.com/mckellwoodland/fid-med-eval にて公開されている。