11일 전
분야 외 탐지에 대한 시각-언어 표현 탐구
Yifei Ming, Ziyang Cai, Jiuxiang Gu, Yiyou Sun, Wei Li, Yixuan Li

초록
오픈 월드에서 배포되는 기계 학습 시스템에서는 분포 외(OOD, out-of-distribution) 샘플을 인식하는 것이 매우 중요하다. 현재까지의 대부분의 OOD 탐지 방법은 단일 모달리티(예: 비전 또는 언어)에 기반하여 개발되었으며, 다중 모달 표현에서 얻을 수 있는 풍부한 정보를 활용하지 못하고 있다. 최근의 비전-언어 사전학습 기술의 성공을 영감으로 삼아, 본 논문은 단일 모달에서 다중 모달로의 OOD 탐지 기법의 전환을 제안한다. 특히, 시각적 특징과 텍스츄얼 개념 간의 정렬을 기반으로 한 간단하면서도 효과적인 제로샷 OOD 탐지 방법인 최대 개념 매칭(Maximum Concept Matching, MCM)을 제안한다. MCM의 효과성에 대한 심층적 분석과 이론적 통찰을 제공하며, 다양한 실제 작업에서 광범위한 실험을 통해 MCM이 뛰어난 성능을 보임을 입증한다. 특히, 의미적으로 유사한 클래스를 가진 어려운 OOD 작업에서 MCM은 순수한 시각적 특징을 사용하는 일반적인 베이스라인 대비 AUROC 기준 13.1% 향상된 성능을 기록한다. 코드는 https://github.com/deeplearning-wisc/MCM 에서 공개되어 있다.