2달 전

개방된 세계에서 대규모 장미 꼬리 인식

Ziwei Liu; Zhongqi Miao; Xiaohang Zhan; Jiayun Wang; Boqing Gong; Stella X. Yu
개방된 세계에서 대규모 장미 꼬리 인식
초록

실세계 데이터는 종종 긴 꼬리 분포와 개방형 분포를 가집니다. 실용적인 인식 시스템은 다수 클래스와 소수 클래스 사이에서 분류해야 하며, 몇 개의 알려진 사례에서 일반화하고, 이전에 본 적 없는 사례에서는 새로운 것을 인식해야 합니다. 우리는 이러한 자연적으로 분포된 데이터에서 학습하고, 머리, 꼬리, 그리고 개방 클래스가 포함된 균형 잡힌 테스트 세트에서의 분류 정확도를 최적화하는 것을 오픈 롱테일 인식(Open Long-Tailed Recognition, OLTR)으로 정의합니다. OLTR은 하나의 통합 알고리즘으로 불균형 분류, 소수 샘플 학습(few-shot learning), 그리고 개방 집합 인식(open-set recognition)을 처리해야 하는 반면, 기존의 분류 접근 방식들은 단 한 가지 측면만 집중하여 전체 클래스 스펙트럼에서 성능이 떨어집니다. 주요 과제는 머리 클래스와 꼬리 클래스 간에 시각적 지식을 공유하는 방법과 꼬리 클래스와 개방 클래스 간의 혼동을 줄이는 방법입니다. 우리는 이른바 동적 메타 임베딩(dynamic meta-embedding)을 개발하여 이미지를 피처 공간으로 매핑하였습니다. 이 방법은 학습된 메트릭이 폐쇄 세계 분류를 존중하면서도 개방 세계의 신규성을 인정하도록 설계되었습니다. 동적 메타 임베딩은 직접적인 이미지 피처와 연관된 메모리 피처를 결합하며, 피처 노름(feature norm)은 알려진 클래스에 대한 친숙도를 나타냅니다. 객체 중심 ImageNet, 장소 중심 Places, 얼굴 중심 MS1M 데이터에서 큐레이팅한 세 가지 대규모 OLTR 데이터셋에서 우리의 방법은 일관되게 최신 연구 결과(state-of-the-art)를 능가합니다. 우리의 코드, 데이터셋 및 모델은 미래의 OLTR 연구를 지원하기 위해 공개되어 있으며, https://liuziwei7.github.io/projects/LongTail.html 에서 확인할 수 있습니다.