
초록
우리는 표준 이미지-텍스트 인식 데이터셋을 활용하여 텍스트-이미지 생성 확산 모델의 텍스트 정렬(text alignment)을 자동 평가하는 방법을 제안한다. 본 연구에서 제안하는 방법은 SelfEval이라 명명되며, 생성 모델을 이용해 텍스트 프롬프트가 주어졌을 때 실제 이미지의 가능도(likelihood)를 계산하고, 이 가능도를 활용해 생성 모델을 통해 인식 작업을 수행할 수 있도록 한다. 우리는 다중모달 텍스트-이미지 분류 학습을 위한 표준 데이터셋에서 생성 모델을 평가하며, 성능의 세부적인 측면—속성 결합, 색상 인식, 개수 세기, 도형 인식, 공간 이해 능력—을 분석한다. 기존의 자동 평가 지표는 CLIP(VLM)이나 LLM과 같은 외부 사전 학습된 모델에 의존하며, 특정 사전 학습 모델의 성능과 한계에 민감하게 반응한다. 반면 SelfEval은 이러한 문제를 회피하며, 지금까지 알려진 바에 따르면, 여러 생성 모델, 벤치마크, 평가 지표에 걸쳐 인간 평가(골드 스탠다드)와 높은 일치도를 보이는 최초의 자동 평가 지표이다. 또한 SelfEval은 생성 모델이 Winoground 이미지 스코어와 같은 도전적인 과제에서 분류 모델과 비교해 경쟁 수준의 인식 성능을 보여줌을 드러낸다. 우리는 SelfEval이 확산 모델에 대한 간편하고 신뢰할 수 있는 자동 평가를 가능하게 하기를 기대한다.