10일 전

긴 꼬리 시각 인식을 위한 영역 자체 주의를 활용한 과대평가된 에피소딕 메모리

{ Yi Yang, Linchao Zhu}
긴 꼬리 시각 인식을 위한 영역 자체 주의를 활용한 과대평가된 에피소딕 메모리
초록

장테일 데이터 모델링에 대한 관심이 점점 증가하고 있다. 인공적으로 수집된 데이터셋과 달리 장테일 데이터는 현실 세계에서 자연스럽게 존재하므로 더 현실적인 특성을 지닌다. 클래스 불균형 문제를 해결하기 위해, 우리는 장테일 시각 인식을 위한 확장된 에피소드 메모리(Inflated Episodic Memory, IEM)를 제안한다. 먼저, IEM은 컨볼루션 신경망에 각 클래스의 대표적인 특징을 추가하여 꼬리 클래스에 대한 빠른 학습을 가능하게 한다. 기존의 소수 샘플 학습(few-shot learning)에서는 일반적으로 하나의 프로토타입을 사용하여 클래스를 대표한다. 그러나 장테일 데이터는 클래스 내 변동성이 더 크기 때문에, 하나의 프로토타입으로 클래스를 효과적으로 표현하는 것은 어려울 수 있다. 이를 해결하기 위해, 우리는 각 클래스별로 가장 구분력 있는 특징을 개별적으로 저장하는 IEM을 도입한다. 또한 메모리 뱅크는 독립적으로 업데이트되므로, 왜곡된 분류기 학습의 가능성을 추가로 줄일 수 있다. 두 번째로, 다중 스케일 공간 특징 맵을 인코딩하기 위한 새로운 영역 자기 주의 메커니즘(region self-attention mechanism)을 제안한다. 이는 꼬리 클래스에 대한 일반화 성능을 향상시키기 위해 더 구분력 있는 특징을 효과적으로 통합하는 데 유리하다. 우리는 다중 스케일에서 국소적 특징 맵을 인코딩하고, 동시에 공간적 맥락 정보를 통합하는 방식을 제안한다. IEM과 영역 자기 주의 메커니즘을 결합함으로써, 우리는 네 가지 표준 장테일 이미지 인식 벤치마크에서 최신 기술 수준의 성능을 달성하였다. 또한, YouTube-8M이라는 장테일 영상 인식 벤치마크를 통해 IEM의 효과성을 검증하였다.