
초록
비디오 객체 검출(VID)은 최근 몇 년 동안 급속히 발전하고 있는 연구 방향입니다. VID의 핵심 문제 중 하나는 빠른 움직임으로 인해 비디오 프레임의 화질이 저하되는 것입니다. 이 문제는 단일 프레임에 대해 본질적으로 해결하기 어려운 문제입니다. 따라서 다른 프레임에서 특징을 집계하는 것이 자연스러운 선택이 됩니다. 기존 방법들은 주로 광학 흐름(optical flow)이나 순환 신경망(recurrent neural networks)을 이용하여 특징을 집계합니다. 그러나 이러한 방법들은 시간적으로 가까운 프레임에 더 큰 중점을 두고 있습니다. 본 연구에서는 전체 시퀀스 수준에서 특징을 집계하면 비디오 객체 검출에 더욱 구별력 있고 강건한 특징을 얻을 수 있다고 주장합니다. 이를 달성하기 위해 새로운 시퀀스 수준 의미 집계(SELSA) 모듈을 설계하였습니다. 또한 제안된 방법과 고전적인 스펙트럼 클러스터링(spectral clustering) 방법 사이의 밀접한 관계를 보여주어 VID 문제를 이해하는 새로운 관점을 제공합니다. 제안된 방법을 ImageNet VID와 EPIC KITCHENS 데이터셋에서 테스트하였으며, 새로운 최신 결과(state-of-the-art results)를 달성하였습니다. 우리의 방법은 Seq-NMS나 Tubelet 재점수 부여(Tubelet rescoring)와 같은 복잡한 후처리 방법이 필요하지 않아 파이프라인을 간단하고 깔끔하게 유지할 수 있습니다.