2달 전
확산 기반 인식을 위한 텍스트-이미지 정렬
Neehar Kondapaneni; Markus Marks; Manuel Knott; Rogerio Guimaraes; Pietro Perona

초록
확산 모델은 인상적인 텍스트-이미지 합성 능력을 가진 생성 모델로, 전통적인 머신 러닝 작업을 위한 창의적인 방법들의 새로운 물결을 일으켰습니다. 그러나 이러한 생성 모델의 지각적 지식을 시각적 작업에 활용하는 최선의 방법은 아직 개방된 질문입니다. 특히, 확산 백본을 시각적 작업에 적용할 때 프롬프팅 인터페이스를 어떻게 사용해야 하는지 명확하지 않습니다. 우리는 자동으로 생성된 캡션이 텍스트-이미지 정렬을 개선하고 모델의 크로스-어텐션 맵을 크게 강화하여 더 나은 지각 성능을 이끌어낼 수 있음을 발견했습니다. 우리의 접근 방식은 ADE20K에서 확산 기반 의미 분할과 NYUv2에서 깊이 추정에 대한 현재 최고 수준(SOTA)을 개선했습니다. 또한, 우리의 방법은 다중 영역 설정에서도 일반화됩니다. 우리는 모델 개인화와 캡션 수정을 통해 목표 영역에 모델을 맞추었으며, 미정렬 베이스라인보다 향상된 결과를 얻었습니다. Pascal VOC에서 학습한 우리의 다중 영역 객체 검출 모델은 Watercolor2K에서 최고 수준(SOTA) 결과를 달성했습니다. Cityscapes에서 학습한 우리의 다중 영역 분할 방법은 Dark Zurich-val과 Nighttime Driving에서 최고 수준(SOTA) 결과를 달성했습니다. 프로젝트 페이지: https://www.vision.caltech.edu/tadp/. 코드: https://github.com/damaggu/TADP.