VL-LTR: 장광역 시각-언어 표현 학습을 통한 클래스별 시각 인식

딥러닝 기반 모델은 실제 환경에서 긴 꼬리 분포 데이터(long-tailed data)를 처리할 때 여러 도전에 직면한다. 기존의 해결 방안은 주로 이미지 모달리티 기반으로 클래스 불균형 문제를 해결하기 위해 균형 전략 또는 전이 학습(transfer learning)을 활용한다. 본 연구에서는 시각-언어(long-tailed recognition, LTR) 데이터에 적합한 새로운 시각-언어 긴 꼬리 인식 프레임워크인 VL-LTR를 제안하고, 긴 꼬리 인식에 텍스트 모달리티를 도입함으로써 얻는 이점에 대해 실증적 연구를 수행한다. 기존 접근법과 비교해 제안하는 VL-LTR는 다음과 같은 장점을 갖는다. (1) 본 방법은 이미지에서 시각적 표현을 학습할 뿐만 아니라, 인터넷에서 수집한 노이즈가 포함된 클래스 수준의 텍스트 설명으로부터 해당하는 언어적 표현도 학습할 수 있다. (2) 학습된 시각-언어 표현을 효과적으로 활용하여, 특히 이미지 샘플 수가 적은 클래스에 대해 시각 인식 성능을 크게 향상시킬 수 있다. 또한 우리는 광범위한 실험을 수행하여 기존의 대표적 LTR 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성하였다. 특히 ImageNet-LT에서 전체 정확도(overall accuracy)가 77.2%에 달하며, 이는 이전 최고 성능 방법보다 17점 이상 뛰어넘은 결과이며, 전체 ImageNet 데이터셋으로 훈련된 기존의 선도적인 성능에 근접하는 수준이다. 코드는 https://github.com/ChangyaoTian/VL-LTR 에서 공개되어 있다.