2달 전

세부적인 비디오 분류를 위한 중복 감소 주의력 기법

Chen Zhu; Xiao Tan; Feng Zhou; Xiao Liu; Kaiyu Yue; Errui Ding; Yi Ma
세부적인 비디오 분류를 위한 중복 감소 주의력 기법
초록

세부 범주화 작업을 위해 비디오는 정적 이미지보다 더 나은 정보원이 될 수 있습니다. 비디오가 차별화된 패턴을 포함할 가능성이 더 높기 때문입니다. 그럼에도 불구하고, 비디오 시퀀스는 많은 중복되고 관련 없는 프레임을 포함할 수도 있습니다. 관심 있는 중요한 정보를 어떻게 위치시키는지는 어려운 과제입니다. 본 논문에서는 중복된 특성 채널을 억제하여 여러 개의 차별화된 패턴에 집중하도록 학습하는 새로운 네트워크 구조인 Redundancy Reduction Attention (RRA)를 제안합니다. 구체적으로, RRA는 선택된 프레임들의 피처 맵에서 모든 피처 벡터를 가중합하여 시간-공간 소프트 어텐션을 통해 비디오를 요약하고, 이 요약에 따라 학습된 비선형 변환을 사용하여 억제하거나 강화해야 할 채널을 예측합니다. 억제는 피처 맵의 조절과 약한 활성화의 제거를 통해 이루어집니다. 업데이트된 피처 맵은 다음 반복 단계에서 사용됩니다. 마지막으로, 여러 개의 요약에 기반하여 비디오가 분류됩니다. 제안된 방법은 여러 비디오 분류 데이터셋에서 뛰어난 성능을 보여주었습니다. 또한, 세부 범주화 비디오 연구를 위한 두 개의 대규모 비디오 데이터셋인 YouTube-Birds와 YouTube-Cars를 수집하였습니다. 이 데이터셋들은 http://www.cs.umd.edu/~chenzhu/fgvc에서 이용할 수 있습니다.