OrdinalCLIP: 언어 안내 순위 회귀를 위한 순위 프롬프트 학습

본 논문은 순서 회귀를 위한 언어 기반 패러다임을 제시합니다. 기존 방법들은 일반적으로 각 등급을 범주로 취급하고, 이러한 개념을 학습하기 위해 일련의 가중치를 사용합니다. 이러한 방법들은 과적합하기 쉽고, 학습된 개념이 주로 훈련 세트에서 유래되기 때문에 만족스럽지 않은 성능을 보이는 경우가 많습니다. 최근에 CLIP와 같은 대규모 사전 훈련된 시각-언어 모델들이 다양한 시각적 작업에서 뛰어난 성능을 보여주었습니다. 본 논문에서는 이러한 작업을 대조적인 목적함수를 사용한 이미지-언어 매칭 문제로 재구성하여, 각 등급에 대해 텍스트 인코더로부터 언어 프로토타입을 얻는 방법을 제안합니다.CLIP의 프롬프트 엔지니어링은 극도로 시간이 소요되는 작업이지만, 우리는 OrdinalCLIP라는 차별화된 프롬프트 방법을 제안하여 CLIP을 순서 회귀에 적응시키고자 합니다. OrdinalCLIP는 학습 가능한 컨텍스트 토큰과 학습 가능한 등급 임베딩으로 구성됩니다. 학습 가능한 등급 임베딩은 수치적 연속성을 명시적으로 모델링하여 CLIP 공간에서 잘 정렬되고 콤팩트한 언어 프로토타입을 생성합니다. 학습 후에는 언어 프로토타입만 저장하고 큰 언어 모델은 버릴 수 있어, 선형 헤드 방식과 비교해 추가적인 계산 부하가 없습니다.실험 결과, 우리의 패러다임은 일반적인 순서 회귀 작업에서 경쟁력 있는 성능을 보였으며, 나이 추정 작업에서 샷이 적거나 분포 이동 설정에서도 개선된 성능을 나타냈습니다. 코드는 https://github.com/xk-huang/OrdinalCLIP 에서 제공됩니다.