당신의 확산 모델은 실제로 제로샷 분류기입니다.

최근 대규모 텍스트-이미지 확산 모델의 등장으로 텍스트 기반 이미지 생성 능력이 크게 향상되었습니다. 이러한 모델은 놀라운 다양성의 프롬프트에 대해 현실적인 이미지를 생성할 수 있으며, 인상적인 조합적 일반화 능력을 보여줍니다. 그러나 지금까지의 거의 모든 사용 사례는 샘플링에만 초점을 맞추어 왔습니다. 확산 모델은 이미지 생성을 넘어서 유용한 조건부 밀도 추정값을 제공할 수도 있습니다. 본 논문에서는 대규모 텍스트-이미지 확산 모델인 스테이블 디퓨전(Stable Diffusion)과 같은 모델에서 얻은 밀도 추정값을 활용하여 추가 학습 없이 제로샷 분류를 수행할 수 있음을 보입니다. 우리는 이 분류 접근법을 확산 분류기(Diffusion Classifier)라고 명명하였으며, 다양한 벤치마크에서 강력한 결과를 달성하며 확산 모델로부터 지식을 추출하는 다른 방법보다 우수한 성능을 보였습니다. 제로샷 인식 작업에서 생성적 접근법과 판별적 접근법 사이에는 여전히 간극이 존재하지만, 우리의 확산 기반 접근법은 경쟁하는 판별적 접근법보다 훨씬 강력한 다중모드 조합적 추론 능력을 가지고 있습니다. 마지막으로, 우리는 ImageNet 데이터셋에서 학습된 클래스 조건부 확산 모델로부터 표준 분류기를 추출하기 위해 Diffusion Classifier를 사용했습니다. 우리의 모델들은 약한 증강만을 사용하여도 강력한 분류 성능을 달성하였으며, 분포 이동에 대한 "효과적인 견고성"이 질적으로 더 우수함을 보였습니다. 전반적으로, 우리의 결과는 하위 작업에 대해 판별적 모델보다 생성적 모델을 사용하는 방향으로 한 걸음 더 나아간 것입니다. 결과와 시각화 자료는 https://diffusion-classifier.github.io/ 에서 확인하실 수 있습니다.