시각-언어 모델을 통한 간단한 긴 꼬리 인식 베이스라인

시각 세계는 열린 클래스에 대해 자연스럽게 긴 꼬리 분포(long-tailed distribution)를 보이며, 이는 현대 시각 시스템에 큰 도전 과제를 제기한다. 기존의 접근 방식들은 클래스 재균형 전략을 적용하거나 직접 네트워크 모듈을 개선함으로써 문제를 해결하려 했으나, 여전히 사전에 정의된 유한한 레이블 집합을 기반으로 모델을 학습하기 때문에 감독 정보의 제한과 새로운 인스턴스로의 전이 가능성 제약이라는 한계를 지닌다. 최근 대규모 대조적 시각-언어 사전학습의 발전은 시각 인식을 위한 새로운 접근로를 제시하고 있다. 개방형 어휘(open-vocabulary) 감독을 통해 사전학습된 대조적 시각-언어 모델은 데이터 부족과 미지의 개념을 다루는 데 유망한 강력한 다모달 표현을 학습하게 된다. 시각 입력과 텍스트 입력 간의 의미 유사도를 계산함으로써, 시각 인식은 시각-언어 매칭 문제로 변환된다. 이러한 아이디어에 영감을 받아, 우리는 대조적 시각-언어 모델을 활용하여 긴 꼬리 분포 인식을 수행하는 BALLAD를 제안한다. 먼저, 특정한 긴 꼬리 분포 타겟 데이터셋을 기반으로 대조 학습을 통해 시각-언어 백본을 지속적으로 사전학습한다. 이후 백본을 고정한 후, 재샘플링 전략을 활용해 균형 잡힌 학습 샘플을 구성하고, 추가적인 어댑터 레이어를 도입하여 꼬리 클래스의 표현력을 향상시킨다. 우리는 세 가지 인기 있는 긴 꼬리 인식 벤치마크에서 광범위한 실험을 수행하였으며, 그 결과 제안하는 간단하면서도 효과적인 접근법은 새로운 최고 성능을 달성하여 경쟁적인 기준 모델들을 크게 앞서는 성과를 보였다. 코드는 https://github.com/gaopengcuhk/BALLAD 에 공개되어 있다.