생성 의료 영상 평가를 위한 특징 추출: 변화하는 추세에 대한 새로운 증거

프레셰 인셉션 거리(Fréchet Inception Distance, FID)는 합성 이미지 품질 평가에 널리 사용되는 지표이다. 이 지표는 ImageNet 기반의 특징 추출기(Feature Extractor)에 의존하므로, 의료 영상 분야에의 적용 가능성이 명확하지 않다. 최근의 추세는 의료 영상으로 훈련된 특징 추출기를 활용하여 FID를 의료 영상에 적응시키는 것이다. 본 연구는 이러한 접근 방식에 도전하며, ImageNet 기반 추출기가 RadImageNet 기반 추출기보다 더 일관되고 인간 평가와 잘 일치함을 입증한다. 우리는 16개의 StyleGAN2 네트워크를 4개의 의료 영상 모달리티와 4가지 데이터 증강 기법을 통해 평가하였으며, 11개의 ImageNet 또는 RadImageNet 기반 특징 추출기를 사용해 프레셰 거리(Fréchet Distance, FD)를 계산하였다. 시각적 튜링 테스트를 통한 인간 평가와의 비교 결과, ImageNet 기반 추출기가 인간 판단과 일치하는 순위를 생성함을 확인하였으며, 특히 ImageNet으로 훈련된 SwAV 추출기로부터 도출된 FD는 전문가 평가와 유의미한 상관관계를 보였다. 반면, RadImageNet 기반 추출기를 사용한 순위는 불안정하고 인간 판단과 일치하지 않았다. 본 연구 결과는 기존의 통념을 도전하며, 의료 영상으로 훈련된 특징 추출기가 FID를 본질적으로 개선하지 못할 뿐만 아니라 오히려 신뢰성을 저해할 수 있음을 새로운 증거로 제시한다. 본 연구의 코드는 https://github.com/mckellwoodland/fid-med-eval 에서 공개되어 있다.