17일 전
시계열 RoI Align를 통한 영상 객체 인식
Tao Gong, Kai Chen, Xinjiang Wang, Qi Chu, Feng Zhu, Dahua Lin, Nenghai Yu, Huamin Feng

초록
비디오 객체 탐지에서는 특정 프레임에서 외형이 저하되는 경우에 특히 도전적인 과제가 된다. 따라서 현재 프레임에 동일한 비디오의 다른 프레임들로부터 시간 정보를 통합하는 것은 자연스러운 선택이다. 그러나 비디오 탐지기의 핵심 절차 중 하나인 RoI Align은 여전히 제안 영역에 대해 단일 프레임의 특징 맵에서 특징을 추출하는 방식을 유지하고 있어, 추출된 RoI 특징이 비디오의 시간 정보를 반영하지 못하는 문제가 존재한다. 본 연구에서는 동일한 객체 인스턴스가 비디오 내 여러 프레임에서 특징적으로 유사하다는 점을 고려하여, 특징 유사성을 활용하여 현재 프레임의 제안 영역에 대해 다른 프레임의 특징 맵에서 특징을 추출하는 새로운 '시간적 RoI Align' 연산자를 제안한다. 제안된 시간적 RoI Align 연산자는 제안 영역에 대해 전체 비디오에서 시간 정보를 추출할 수 있다. 이 연산자는 단일 프레임 기반 비디오 탐지기 및 기타 최첨단 비디오 탐지기에 통합되었으며, 정량적 실험을 통해 제안된 시간적 RoI Align 연산자가 성능을 일관되고 현저하게 향상시킬 수 있음을 입증하였다. 또한 제안된 시간적 RoI Align은 비디오 인스턴스 세그멘테이션에도 적용 가능하다. 코드는 https://github.com/open-mmlab/mmtracking 에서 제공된다.