2달 전
이미지 인페인팅을 통한 시각적 프롬프팅
Bar, Amir ; Gandelsman, Yossi ; Darrell, Trevor ; Globerson, Amir ; Efros, Alexei A.

초록
새로운 하위 작업에 특화된 미세 조정(finetuning)이나 모델 수정 없이 사전 학습된 시각 모델을 어떻게 적응시킬 수 있을까요? 자연어 처리(NLP)에서 프롬프팅(prompting)의 영감을 받아, 이 논문은 시각적 프롬프팅(visual prompting)을 연구합니다. 테스트 시점에서 새로운 작업의 입력-출력 이미지 예제와 새로운 입력 이미지를 주어졌을 때, 목표는 주어진 예제와 일관되게 출력 이미지를 자동으로 생성하는 것입니다. 우리는 이 문제를 단순한 이미지 인페인팅(image inpainting)으로 설정하면 - 문자 그대로 연결된 시각적 프롬프트 이미지의 구멍을 채우는 것 - 인페인팅 알고리즘이 적절한 데이터로 학습되었을 경우 놀랍게도 효과적이라는 것을 보여줍니다. 우리는 아르키브(Arxiv) 출처의 학술 논문에서 큐레이팅(curated)한 88,000개의 라벨되지 않은 그림으로 구성된 새로운 데이터셋에서 마스크 오토인코더(masked auto-encoders)를 학습시켰습니다. 이러한 사전 학습 모델에 시각적 프롬프팅을 적용하여 전경 분할, 단일 객체 검출, 색상화, 엣지 검출 등 다양한 하위 이미지-이미지 작업에서 결과를 제시합니다.