11일 전

CAILA: 구성적 제로샷 학습을 위한 개념 인지 내층 어댑터

Zhaoheng Zheng, Haidong Zhu, Ram Nevatia
CAILA: 구성적 제로샷 학습을 위한 개념 인지 내층 어댑터
초록

본 논문에서는 사전에 존재하는 개념을 활용하여 새로운 속성-객체 조합을 인식하는 복합 제로샷 학습(Compositional Zero-Shot Learning, CZSL) 문제를 탐구한다. 최근 연구자들은 강력한 일반화 능력을 지닌 대규모 비전-언어 사전 학습(Vision-Language Pre-trained, VLP) 모델, 예를 들어 CLIP을 적용하는 데 주목하고 있다. 그러나 이러한 방법들은 사전 학습된 모델을 흑상자처럼 취급하며, CLIP 전후의 처리 과정에 집중할 뿐, CLIP 내부 계층 간의 의미적 개념을 내재적으로 탐색하지 않는다. 본 연구에서는 CLIP 아키텍처를 깊이 탐구하고, 대규모 언어 모델에서 효과가 입증된 파라미터 효율적인 기법인 어댑터(Adapters)를 각 CLIP 인코더 계층에 삽입한다. 또한 어댑터에 개념 인식 능력을 부여하여 '객체', '속성', '조합'에 특화된 특징을 추출할 수 있도록 한다. 제안한 방법은 MIT-States, C-GQA, UT-Zappos, VAW-CZSL의 네 가지 대표적인 CZSL 데이터셋에서 평가되었으며, 모든 데이터셋에서 기존 방법 대비 최신 기술(SOTA) 수준의 성능을 보였다.

CAILA: 구성적 제로샷 학습을 위한 개념 인지 내층 어댑터 | 최신 연구 논문 | HyperAI초신경