2달 전
원격 감지 비전-언어 모델을 활용한 제로샷 장면 분류 개선
Karim El Khoury; Maxime Zanella; Benoît Gérin; Tiffanie Godelaine; Benoît Macq; Saïd Mahmoudi; Christophe De Vleeschouwer; Ismail Ben Ayed

초록
원격 감지용 비전-언어 모델은 광범위한 사전 학습 덕분에 유망한 활용 가능성을 보여주고 있습니다. 그러나 이러한 모델이 제로샷 장면 분류 방법에서 전통적으로 사용될 때는 큰 이미지를 패치로 나누고 독립적인 예측을 수행하는 방식, 즉 귀납적 추론(inductive inference)을 사용하여 중요한 맥락 정보를 무시함으로써 효율성이 제한되는 문제가 있습니다. 우리의 접근 방식은 텍스트 프롬프팅과 이미지 인코더에서 얻은 패치 친화 관계(patch affinity relationships)를 활용하여 귀납적 추론 없이도 전달적 추론(transductive inference)을 통해 제로샷 능력을 향상시키는 것입니다. 이 과정은 감독 없이 이루어지며, 계산 비용이 거의 들지 않습니다. 최신 비전-언어 모델을 사용한 10개의 원격 감지 데이터셋 실험 결과, 귀납적 제로샷 분류보다 상당히 정확도가 향상된 것으로 나타났습니다. 우리의 소스 코드는 Github에서 공개적으로 이용할 수 있습니다: https://github.com/elkhouryk/RS-TransCLIP