풍부한 의미 정보가 소수 샘플 학습을 개선한다

인간의 학습은 객체의 특성에 대한 설명과 같은 풍부한 의미 정보를 포함하는 다중 모달 입력을 통해 큰 이점을 얻는다. 이러한 방식은 매우 제한된 시각적 예시로부터 일반화 가능한 개념을 학습할 수 있도록 한다. 그러나 현재의 소수 샘플 학습(FSL) 방법들은 객체 클래스를 수치적 클래스 레이블로 표시하여 학습된 개념에 대한 풍부한 의미 정보를 제공하지 못한다. 본 연구에서는 최소한의 애노테이션 비용으로 확보할 수 있는 '클래스 수준의' 언어적 설명을 활용함으로써 FSL 성능을 향상시킬 수 있음을 보여준다. 지원 집합과 질의를 기반으로, 우리의 주요 아이디어는 시각적 특징을 압축하는 블로커너 비트(하이브리드 프로토타입)를 생성하고, 이 프로토타입을 학습 과정에서 클래스에 대한 언어적 설명을 생성하는 보조 과제로 활용하는 것이다. 시각적 토큰과 의미적 토큰 간의 복잡한 관계를 효과적으로 인코딩할 수 있도록 트랜스포머 기반의 전방 및 후방 인코딩 메커니즘을 개발하였다. 프로토타입이 클래스 설명에 대한 의미 정보를 유지하도록 강제함으로써 시각적 특징에 정규화 효과를 부여하여, 추론 시 새로운 클래스에 대한 일반화 성능을 향상시킨다. 더불어 이 전략은 학습된 표현에 인간의 사전 지식을 도입함으로써, 모델이 시각적 개념과 의미적 개념을 정확히 연결하도록 보장하여 모델의 해석 가능성 또한 향상시킨다. 네 가지 데이터셋에서의 실험 및 아블레이션 연구를 통해, FSL에서 풍부한 의미 정보를 효과적으로 모델링하는 것이 실질적인 이점을 제공함을 입증하였다.