11일 전
20,000개 클래스를 활용한 프롬프트 프리트레이닝을 통한 오픈 뷰포트리지 시각 인식
Shuhuai Ren, Aston Zhang, Yi Zhu, Shuai Zhang, Shuai Zheng, Mu Li, Alex Smola, Xu Sun

초록
이 연구는 시각-언어 모델을 위한 프롬프트 사전학습 방법인 POMP을 제안한다. POMP는 메모리와 계산 효율성이 뛰어나며, 2만 개 이상의 클래스를 포함한 다양한 시각적 개념에 대한 의미 정보를 효과적으로 압축하여 학습할 수 있다. 사전학습이 완료된 후, 뛰어난 전이 능력을 지닌 프롬프트는 이미지 분류, 세분화, 객체 탐지 등 다양한 시각 인식 작업에 직접 적용되어 제로샷(zero-shot) 방식으로 인식 성능을 향상시킬 수 있다. 실증 평가 결과, POMP는 21개의 데이터셋에서 최신 기준 성능을 달성하였으며, 예를 들어 10개의 분류 데이터셋에서 평균 정확도 67.0%를 기록해 CoOp 대비 +3.1% 향상되었고, 오픈-보드(Pascal VOC) 세분화 작업에서는 84.4 hIoU를 달성해 ZSSeg 대비 +6.9 향상되었다. 본 연구의 코드는 https://github.com/amazon-science/prompt-pretraining 에서 공개되어 있다.