17일 전
효율적인 비디오 객체 탐지를 위한 주의 집중 위치 학습
Zhengkai Jiang, Yu Liu, Ceyuan Yang, Jihao Liu, Peng Gao, Qian Zhang, Shiming Xiang, Chunhong Pan

초록
기존의 이미지 기반 검출기들을 비디오로 전이하는 것은 프레임 품질이 부분적 가림, 드문 자세, 운동 왜곡 등으로 항상 저하되기 때문에 간단하지 않다. 기존의 접근 방식은 광학 흐름 워핑을 활용하여 비디오 프레임 간의 특징을 전파하고 집계하려 했지만, 고수준 특징에 이미지 수준의 광학 흐름을 직접 적용하는 것은 정확한 공간적 대응 관계를 형성하기 어려울 수 있다. 이를 해결하기 위해 인접 프레임 특징 간의 의미론적 대응 관계를 정확히 학습할 수 있도록 새로운 모듈인 학습 가능한 시공간 샘플링(Learnable Spatio-Temporal Sampling, LSTS)이 제안되었다. LSTS는 샘플링 위치를 초기에 무작위로 설정한 후, 검출 지도에 따라 점진적으로 개선되며 보다 우수한 공간적 대응 관계를 찾도록 반복적으로 업데이트한다. 또한, 시간적 관계를 모델링하기 위한 희소 재귀적 특징 업데이트(Sparsely Recursive Feature Updating, SRFU) 모듈과 각 프레임의 특징을 강화하기 위한 밀집 특징 집계(Dense Feature Aggregation, DFA) 모듈도 도입되었다. 복잡한 부가 요소 없이도 제안된 방법은 계산 복잡도를 낮추고 실시간 속도를 달성하면서 ImageNet VID 데이터셋에서 최신 기준(SOTA) 성능을 달성하였다. 코드는 https://github.com/jiangzhengkai/LSTS 에서 공개될 예정이다.