시맨틱-시각적 가이드 트랜스포머를 활용한 소량 샘플 증강 분류 증강 학습

최근 몇 가지 샘플 증강 학습(few-shot class-incremental learning, FSCIL)은 다양한 분야에서 광범위한 관심을 끌고 있다. 기존의 FSCIL 방법들은 기초 클래스(base classes)에 대해 사전 훈련된 특징 백본(feature backbone)의 강건성에 크게 의존한다. 최근 몇 년간 다양한 트랜스포머(Transformer) 변종들이 막대한 분야에서 특징 표현 학습 측면에서 두드러진 성과를 거두었다. 그러나 트랜스포머의 이러한 성과는 FSCIL 환경에서는 다른 분야에서 예상했던 잠재력만큼 성과를 내지 못하고 있다. 본 논문에서는 증강 클래스(incremental classes)에 대한 사전 훈련된 특징 백본의 특징 추출 능력을 향상시키기 위해 의미-시각 유도 트랜스포머(Semantic-Visual Guided Transformer, SV-T)를 제안한다. 구체적으로, 먼저 기초 클래스로부터 제공되는 시각적(이미지) 레이블을 활용하여 트랜스포머의 최적화를 지도한다. 그 후, 텍스트 인코더를 도입하여 기초 클래스의 각 이미지에 대해 자동으로 대응하는 의미적(텍스트) 레이블을 생성한다. 마지막으로, 생성된 의미 레이블을 활용해 트랜스포머의 하이퍼파라미터 업데이트를 유도한다. 제안하는 SV-T는 기초 클래스로부터 더 많은 지도 정보를 효과적으로 활용함으로써 특징 백본의 훈련 강건성을 더욱 높일 수 있다. 특히, SV-T는 독립적인 방법으로 기존의 FSCIL 아키텍처에 직접 적용 가능하여 다양한 증강 클래스의 임베딩을 얻을 수 있다. 세 가지 벤치마크, 두 가지 FSCIL 아키텍처, 두 가지 트랜스포머 변종을 대상으로 한 광범위한 실험 결과를 통해, 제안하는 SV-T가 기존 최고 수준의 FSCIL 방법들에 비해 상당한 성능 향상을 달성함을 입증하였다.