17일 전

비디오 객체 검출을 위한 주의력 유도 메모리가 있는 비디오 스퍼스 트랜스포머

{Akihiro Sugimoto, Masato Fujitake}
초록

비디오 내 객체를 탐지하는 작업, 즉 비디오 객체 탐지(Video Object Detection, VOD)는 시간이 지남에 따라 객체의 외형이 변화할 수 있어 탐지 오류를 유발할 수 있어 도전적인 과제이다. 최근 연구들은 한 프레임의 외형이 저하되는 문제를 보완하기 위해 인접 프레임에서 특징을 집계하는 방식에 초점을 맞추고 있다. 또한, 멀리 떨어진 프레임을 활용하여 다수 프레임에 걸친 외형 저하 문제를 해결하려는 접근도 제안되었다. 그러나 멀리 떨어진 프레임에서는 객체의 위치가 크게 변할 수 있으므로, 위치에 의존하지 않는 객체 후보 영역의 특징만을 사용하는 것이 일반적이다. 그러나 이러한 기법들은 객체 후보 영역 탐지 성능에 크게 의존하며, 외형이 심각하게 저하된 경우 실용성이 떨어진다. 본 논문에서는 객체 후보 영역 탐지 전 단계에서 특징을 원소별로 강화하는 방식을 제안하며, 주의 기반 메모리(Attention-guided Memory)를 갖춘 비디오 스파스 트랜스포머(VSTAM)를 도입한다. 더불어, 원소별 특징을 스파스하게 집계함으로써 처리 시간과 메모리 비용을 줄이는 방법을 제안한다. 또한, 특징 집계의 활용도를 기반으로 한 외부 메모리 업데이트 전략을 도입하여 장기 정보를 효과적으로 유지한다. 제안한 방법은 ImageNet VID 및 UA-DETRAC 데이터셋에서 기준 모델 대비 각각 8.3%, 11.1%의 정확도 향상을 달성하였으며, 널리 사용되는 VOD 데이터셋에서 최신 기술 대비 뛰어난 성능을 보여주었다.