
초록
저라벨 환경에서의 다중 라벨 인식(Multi-Label Recognition, MLR)은 많은 실제 응용 분야를 가진 어려운 과제입니다. 최근 연구에서는 부족한 이미지 라벨을 보완하기 위해 텍스트와 시각적 공간 간의 정렬을 학습하지만, 사용 가능한 MLR 주석이 제한적이기 때문에 정확도가 저하됩니다. 본 연구에서는 수백만 개의 보조 이미지-텍스트 쌍으로 사전학습된 텍스트와 시각적 특성 간의 강력한 정렬을 활용하여 부분 라벨 MLR과 제로샷 MLR을 위한 통합 프레임워크인 듀얼 컨텍스트 최적화(Dual Context Optimization, DualCoOp)를 제안합니다. DualCoOp은 클래스 이름을 언어 입력(즉, 프롬프트)의 일부로 양적 및 음적 컨텍스트를 인코딩합니다. DualCoOp은 사전학습된 비전-언어 프레임워크 위에 매우 경량화된 학습 오버헤드만 추가하므로, 주석이 제한적인 다중 라벨 인식 작업과 심지어 미확인 클래스에도 신속하게 적응할 수 있습니다. 두 가지 도전적인 저라벨 설정에서 표준 다중 라벨 인식 벤치마크를 대상으로 수행된 실험들은 우리의 접근 방식이 최신 방법론보다 우수함을 입증합니다.