2달 전

빠르고 느리게 보기: 기억에 의한 모바일 비디오 객체 검출

Mason Liu; Menglong Zhu; Marie White; Yinxiao Li; Dmitry Kalenichenko
빠르고 느리게 보기: 기억에 의한 모바일 비디오 객체 검출
초록

한 번의 시선 고정이 단 몇 분의 1초에 불과함에도 불구하고, 인간의 시각 체계는 복잡한 환경에 대한 풍부한 표현을 형성할 수 있으며, 이는 객체 인식과 탐지를 용이하게 하는 전체적인 이해를 도출합니다. 이러한 현상을 '장면의 요약(gist)'을 인식하는 것으로 알려져 있으며, 관련된 사전 지식에 의존하여 이루어집니다. 본 논문은 컴퓨터 비전 시스템에서 메모리를 사용함으로써 비디오 스트림에서 객체 탐지의 정확성을 개선할 뿐만 아니라 계산 시간을 줄일 수 있는지와 같은 유사한 질문을 다룹니다. 기존의 특징 추출기와 장면의 요약(gist)만 인식하면 되는 극히 가벼운 특징 추출기를 교차 배치함으로써, 우리는 시간적 메모리가 존재할 때 최소한의 계산으로도 정확한 탐지를 생성할 수 있음을 보여줍니다. 또한, 메모리가 강화 학습 알고리즘을 배포하여 적응적인 추론 정책을 학습하기에 충분한 정보를 포함하고 있음을 보여줍니다. 우리의 모델은 Imagenet VID 2015 데이터셋에서 모바일 방법 중 최고 성능을 달성하며, Pixel 3 휴대폰에서는 최대 70FPS 이상의 속도로 실행됩니다.