10일 전

LMPT: 긴 꼬리 다중 레이블 시각 인식을 위한 클래스별 임베딩 손실을 활용한 프롬프트 튜닝

Peng Xia, Di Xu, Ming Hu, Lie Ju, Zongyuan Ge
LMPT: 긴 꼬리 다중 레이블 시각 인식을 위한 클래스별 임베딩 손실을 활용한 프롬프트 튜닝
초록

긴 꼬리 다중 레이블 시각 인식(Long-tailed multi-label visual recognition, LTML) 작업은 레이블의 동시 발생과 불균형한 데이터 분포로 인해 매우 도전적인 과제이다. 본 연구에서는 이러한 문제를 해결하기 위해 텍스트와 이미지 모달리티 데이터를 결합하여 카테고리 간 의미적 특징 상호작용을 포착하고, 헤드 클래스와 테일 클래스 모두에서 성능을 동시에 향상시키는 통합 프레임워크인 클래스별 임베딩 손실을 활용한 프롬프트 튜닝(LMPT: Prompt Tuning with Class-specific Embedding Loss)을 제안한다. 구체적으로, LMPT는 클래스 인식 가능한 소프트 마진과 재가중 기법을 적용한 임베딩 손실 함수를 도입하여 텍스트 기반 설명(캡션)의 장점을 활용해 클래스별 맥락을 학습함으로써, 특히 헤드 클래스와 테일 클래스 간의 의미적 관계를 형성하는 데 기여한다. 더불어, 클래스 불균형 문제를 고려하여, 테일 클래스의 성능을 향상시키되 헤드 클래스 성능에 손상을 주지 않는 분포 균형 손실(distribution-balanced loss)을 분류 손실 함수로 채택하였다. VOC-LT 및 COCO-LT 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 방법이 기존 최상의 기법들과 제로샷 CLIP보다 상당히 뛰어난 성능을 보였음을 입증하였다. 본 연구의 코드는 공개되어 있으며, GitHub에서 확인 가능하다: https://github.com/richard-peng-xia/LMPT.