17일 전

풍부한 의미 정보가 소수 샘플 학습을 개선한다

Mohamed Afham, Salman Khan, Muhammad Haris Khan, Muzammal Naseer, Fahad Shahbaz Khan

초록

인간의 학습은 객체의 특성에 대한 설명과 같은 풍부한 의미 정보를 포함하는 다중 모달 입력을 통해 큰 이점을 얻는다. 이러한 방식은 매우 제한된 시각적 예시로부터 일반화 가능한 개념을 학습할 수 있도록 한다. 그러나 현재의 소수 샘플 학습(FSL) 방법들은 객체 클래스를 수치적 클래스 레이블로 표시하여 학습된 개념에 대한 풍부한 의미 정보를 제공하지 못한다. 본 연구에서는 최소한의 애노테이션 비용으로 확보할 수 있는 '클래스 수준의' 언어적 설명을 활용함으로써 FSL 성능을 향상시킬 수 있음을 보여준다. 지원 집합과 질의를 기반으로, 우리의 주요 아이디어는 시각적 특징을 압축하는 블로커너 비트(하이브리드 프로토타입)를 생성하고, 이 프로토타입을 학습 과정에서 클래스에 대한 언어적 설명을 생성하는 보조 과제로 활용하는 것이다. 시각적 토큰과 의미적 토큰 간의 복잡한 관계를 효과적으로 인코딩할 수 있도록 트랜스포머 기반의 전방 및 후방 인코딩 메커니즘을 개발하였다. 프로토타입이 클래스 설명에 대한 의미 정보를 유지하도록 강제함으로써 시각적 특징에 정규화 효과를 부여하여, 추론 시 새로운 클래스에 대한 일반화 성능을 향상시킨다. 더불어 이 전략은 학습된 표현에 인간의 사전 지식을 도입함으로써, 모델이 시각적 개념과 의미적 개념을 정확히 연결하도록 보장하여 모델의 해석 가능성 또한 향상시킨다. 네 가지 데이터셋에서의 실험 및 아블레이션 연구를 통해, FSL에서 풍부한 의미 정보를 효과적으로 모델링하는 것이 실질적인 이점을 제공함을 입증하였다.