2달 전

CALIP: 매개변수 없는 주의를 이용한 CLIP의 제로샷 강화

Ziyu Guo; Renrui Zhang; Longtian Qiu; Xianzheng Ma; Xupeng Miao; Xuming He; Bin Cui
CALIP: 매개변수 없는 주의를 이용한 CLIP의 제로샷 강화
초록

대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 뛰어난 전이 가능성을 가진 시각적 표현을 학습하는 것으로 알려져 있으며, 제로샷 분류에서 유망한 정확도를 달성하고 있습니다. 기존 연구에서는 CLIP의 다운스트림 성능을 더욱 향상시키기 위해 추가적인 학습 가능한 모듈을 제안하고 소량 샘플 학습 세트(few-shot training sets)를 통해 미세 조정(fine-tuning)합니다. 그러나 이로 인해 발생하는 추가적인 학습 비용과 데이터 요구는 모델 배포와 지식 전달의 효율성을 크게 저해합니다.본 논문에서는 파라미터가 없는 주의 모듈을 통해 CLIP의 제로샷 성능을 향상시키는 무료 점심 강화 방법인 CALIP를 소개합니다. 구체적으로, 우리는 주의 메커니즘을 통해 시각적 표현과 텍스트 표현이 서로 상호작용하도록 유도하고, 크로스-모달 정보 특징을 탐색합니다. 사전 학습(pre-training)으로 두 모달 간의 임베딩 거리(embedding distances)가 크게 줄어든 상태에서, 우리는 주의 모듈 내의 모든 학습 가능한 파라미터를 버리고 양방향으로 다중 모달 특징(multi-modal features)을 업데이트하여 전체 과정이 파라미터 없이且无训练成本地进行.这样一来,图像被融合了文本感知信号,而文本表示则变得由视觉引导,从而实现更好的适应性零样本对齐。我们在14个数据集的各种基准上评估了CALIP,这些基准涵盖了2D图像和3D点云的少样本分类,结果显示在CLIP的基础上实现了持续的零样本性能提升。基于此,我们进一步在CALIP的注意力模块中插入少量线性层,并验证其在少样本设置下的鲁棒性,这也比现有方法取得了领先性能。广泛的实验表明,我们的方法在高效增强CLIP方面具有优越性。修正后的韩文翻译:우리는 14개 데이터셋의 다양한 벤치마크에서 2D 이미지와 3D 포인트 클라우드 소량 샘플 분류(few-shot classification)에 대한 CALIP를 평가하였으며, CLIP 대비 일관된 제로샷 성능 향상을 보여주었습니다. 이를 바탕으로, 우리는 CALIP의 주의 모듈에 소수의 선형 계층(linear layers)을 삽입하여 소량 샘플 설정(few-shot settings) 하에서의 안정성을 검증하였으며, 이 또한 기존 방법들보다 우수한 성능을 달성하였습니다. 이러한 광범위한 실험들은 우리의 접근 방식이 CLIP의 효율적인 강화에 있어 우월함을 입증하였습니다.

CALIP: 매개변수 없는 주의를 이용한 CLIP의 제로샷 강화 | 최신 연구 논문 | HyperAI초신경