11일 전

20,000개 클래스를 활용한 프롬프트 프리트레이닝을 통한 오픈 뷰포트리지 시각 인식

Shuhuai Ren, Aston Zhang, Yi Zhu, Shuai Zhang, Shuai Zheng, Mu Li, Alex Smola, Xu Sun
20,000개 클래스를 활용한 프롬프트 프리트레이닝을 통한 오픈 뷰포트리지 시각 인식
초록

이 연구는 시각-언어 모델을 위한 프롬프트 사전학습 방법인 POMP을 제안한다. POMP는 메모리와 계산 효율성이 뛰어나며, 2만 개 이상의 클래스를 포함한 다양한 시각적 개념에 대한 의미 정보를 효과적으로 압축하여 학습할 수 있다. 사전학습이 완료된 후, 뛰어난 전이 능력을 지닌 프롬프트는 이미지 분류, 세분화, 객체 탐지 등 다양한 시각 인식 작업에 직접 적용되어 제로샷(zero-shot) 방식으로 인식 성능을 향상시킬 수 있다. 실증 평가 결과, POMP는 21개의 데이터셋에서 최신 기준 성능을 달성하였으며, 예를 들어 10개의 분류 데이터셋에서 평균 정확도 67.0%를 기록해 CoOp 대비 +3.1% 향상되었고, 오픈-보드(Pascal VOC) 세분화 작업에서는 84.4 hIoU를 달성해 ZSSeg 대비 +6.9 향상되었다. 본 연구의 코드는 https://github.com/amazon-science/prompt-pretraining 에서 공개되어 있다.

20,000개 클래스를 활용한 프롬프트 프리트레이닝을 통한 오픈 뷰포트리지 시각 인식 | 최신 연구 논문 | HyperAI초신경