2달 전
프롬프트 튜닝에서 다중 라벨 이미지 인식을 위한 텍스트로서의 이미지
Guo, Zixian ; Dong, Bowen ; Ji, Zhilong ; Bai, Jinfeng ; Guo, Yiwen ; Zuo, Wangmeng

초록
프롬프트 튜닝은 다양한 다운스트림 작업에 대형 비전-언어 사전 학습 모델(예: CLIP)을 적응시키는 효율적인 방법으로 사용되어 왔습니다. 그러나 기존 방법에서는 학습 프롬프트를 생성하기 위해 시각적 데이터(예: 이미지)가 기본적으로 필요합니다. 본 연구에서는 이미지-텍스트 대조 학습이 두 모달을 정렬하는 데 효과적이므로(CLIPE 학습을 위해), 텍스트를 이미지로 취급하여 프롬프트 튜닝을 수행할 수 있음을 주장하며, 이를 TaI 프롬프팅이라고 소개합니다. 시각적 데이터와 달리, 텍스트 설명은 수집하기 쉽고 그 클래스 라벨은 직접 도출될 수 있습니다. 특히, 우리는 자연 상태의 문장들이 이미지의 대안으로서 프롬프트 튜닝에 활용될 수 있도록 TaI 프롬프팅을 다중 라벨 이미지 인식에 적용하였습니다. 또한, TaI를 통해 코스-그레인드 및 파인-그레인드 임베딩을 추출하여 다중 라벨 인식 성능을 향상시키는 더블-그레인드 프롬프트 튜닝(TaI-DPT)이 제시되었습니다. 실험 결과, 제안된 TaI-DPT는 MS-COCO, VOC2007, NUS-WIDE 등 여러 벤치마크에서 제로샷 CLIP보다 크게 우수한 성능을 보였으며, 이미지에서 프롬프트를 생성하는 기존 방법과 결합하여 인식 성능을 더욱 개선할 수 있었습니다. 코드는 https://github.com/guozix/TaI-DPT 에 공개되었습니다.