2달 전

두 가지 특성의 이야기: 안정적인 확산이 DINO를 보완하여 제로샷 의미상 대응을 실현하다

Zhang, Junyi ; Herrmann, Charles ; Hur, Junhwa ; Cabrera, Luisa Polania ; Jampani, Varun ; Sun, Deqing ; Yang, Ming-Hsuan
두 가지 특성의 이야기: 안정적인 확산이 DINO를 보완하여 제로샷 의미상 대응을 실현하다
초록

텍스트-이미지 확산 모델은 고품질 이미지를 생성하고 편집하는 데 있어 상당한 발전을 이룩하였습니다. 그 결과로, 많은 연구가 확산 모델의 특징이 단일 이미지를 이해하고 처리하여 하류 작업(예: 분류, 의미 분할, 스타일화)에 활용될 수 있는 능력을 탐구하였습니다. 그러나 이러한 특징이 여러 개의 다른 이미지와 객체 간에서 어떤 정보를 제공하는지는 아직 잘 알려져 있지 않습니다. 본 연구에서는 Stable Diffusion(SD)의 특징을 의미적 및 밀도 높은 대응 관계에 활용하여, 간단한 후처리를 통해 SD 특징이 최신 기술(SOTA) 표현과 정량적으로 유사한 성능을 보이는 것을 발견하였습니다. 흥미롭게도, 정성적인 분석은 SD 특징이 기존의 표현 학습 특징, 예를 들어 최근 출시된 DINOv2와 매우 다른 속성을 가짐을 나타내었습니다. DINOv2는 희소하지만 정확한 매칭을 제공하는 반면, SD 특징은 고품질의 공간 정보를 제공하지만 때때로 부정확한 의미 매칭을 나타냅니다. 우리는 이러한 두 가지 특징의 간단한 융합이 의외로 잘 작동하며, 융합된 특징에 대한 가장 가까운 이웃 방법을 사용한 제로샷 평가가 벤치마크 데이터셋(예: SPair-71k, PF-Pascal, TSS)에서 최신 기술보다 크게 성능을 향상시키는 것을 시연하였습니다. 또한 이러한 대응 관계가 두 이미지 사이에서 인스턴스 교환 등의 흥미로운 응용 프로그램을 가능하게 함을 보여주었습니다.

두 가지 특성의 이야기: 안정적인 확산이 DINO를 보완하여 제로샷 의미상 대응을 실현하다 | 최신 연구 논문 | HyperAI초신경