17일 전

생성 모델 평가 지표의 결함을 드러내고 확산 모델에 대한 부당한 대우 분석

George Stein, Jesse C. Cresswell, Rasa Hosseinzadeh, Yi Sui, Brendan Leigh Ross, Valentin Villecroze, Zhaoyan Liu, Anthony L. Caterini, J. Eric T. Taylor, Gabriel Loaiza-Ganem
생성 모델 평가 지표의 결함을 드러내고 확산 모델에 대한 부당한 대우 분석
초록

우리는 다양한 의미적 다양성을 가진 이미지 데이터셋을 아우르는 광범위한 생성 모델을 체계적으로 연구하여, 이러한 모델을 평가하는 데 사용되는 특징 추출기 및 평가 지표의 이해와 개선을 목적으로 한다. 심리물리학 분야의 최선의 관행을 활용하여, 지금까지 가장 대규모로 진행된 생성 모델 평가 실험을 통해 인간의 이미지 실감성 인식을 측정한 결과, 기존의 어떤 평가 지표도 인간 평가와 강한 상관관계를 보이지 않는 것으로 확인되었다. 생성 모델의 전반적인 성능, 충실도, 다양성, 희귀성, 기억 현상 등을 평가하는 17개의 현대적 지표들과 비교한 결과, 인간이 평가한 확산 모델(Diffusion Models)의 최신 지각적 실감성은 일반적으로 보고되는 FID(Fréchet Inception Distance)와 같은 지표에는 반영되지 않는 것으로 나타났다. 이 격차는 생성 샘플의 다양성으로 설명되지 않으며, 한 가지 원인은 Inception-V3에 대한 과도한 의존성에 기인한다. 이러한 문제점을 해결하기 위해 대안적인 자기지도 학습 기반 특징 추출기의 탐색을 수행한 결과, 개별 네트워크가 인코딩하는 의미 정보는 훈련 절차에 매우 강하게 의존함을 확인하였으며, DINOv2-ViT-L/14가 생성 모델 평가에 훨씬 풍부한 정보를 제공할 수 있음을 보였다. 다음으로, 데이터 기억 현상(memorization)을 조사한 결과, CIFAR10과 같은 간단하고 소규모 데이터셋에서는 생성 모델이 훈련 예시를 기억하는 것으로 나타났으나, ImageNet과 같은 더 복잡한 데이터셋에서는 반드시 그렇다고 볼 수는 없었다. 그러나 실험 결과에 따르면, 현재의 평가 지표들은 기억 현상을 적절히 탐지하지 못하는 것으로 나타났다. 기존 문헌에 존재하는 어떤 지표도 기억 현상과 과소적합(underfitting) 또는 모드 수축(mode shrinkage)과 같은 다른 현상들을 효과적으로 구분하지 못하는 것으로 확인되었다. 생성 모델과 그 평가 기술의 지속적인 발전을 촉진하기 위해, 본 연구에서는 생성된 모든 이미지 데이터셋, 인간 평가 데이터, 그리고 9개의 다른 인코더에 대해 17개의 일반적인 평가 지표를 계산할 수 있는 모듈식 라이브러리를 공개하며, 해당 자료는 https://github.com/layer6ai-labs/dgm-eval 에서 확인할 수 있다.