3달 전

비디오 객체 탐지를 위한 비디오 간 제안 관계 탐사

{Xiaojun Chang, Yu Qiao, Yali Wang, Mingfei Han}
비디오 객체 탐지를 위한 비디오 간 제안 관계 탐사
초록

최근 연구들은 서로 다른 프레임의 제안 영역(proposals)에서 정보를 통합하는 것이 비디오 객체 탐지 성능을 명확히 향상시킬 수 있음을 보여주었다. 그러나 이러한 기존 방법들은 주로 단일 비디오 내의 제안 영역 간 관계(intra-proposal relation)에만 초점을 맞추고 있으며, 서로 다른 비디오 간의 제안 영역 간 관계를 무시하고 있다. 이는 혼동되는 객체를 인식하는 데 있어 중요한 구분적 단서(discriminative cues)를 제공할 수 있다. 이러한 한계를 해결하기 위해 우리는 새로운 인터-비디오 제안 관계 모듈(Inter-Video Proposal Relation module)을 제안한다. 이 모듈은 간결한 다중 수준 트리플릿(selection) 선택 기법을 기반으로 하여, 서로 다른 비디오 간의 어려운(hard) 제안 영역들 간의 관계를 모델링함으로써 효과적인 객체 표현을 학습할 수 있다. 또한, 계층적인 방식으로 단일 비디오 내의 제안 관계와 서로 다른 비디오 간의 제안 관계를 통합함으로써, 계층적 비디오 관계 네트워크(Hierarchical Video Relation Network, HVR-Net)를 설계하였다. 이 구조는 단계적으로 내부 및 외부 맥락 정보를 활용하여 비디오 객체 탐지 성능을 향상시킬 수 있다. 제안된 방법은 대규모 비디오 객체 탐지 벤치마크인 ImageNet VID에서 평가되었으며, HVR-Net은 최고 성능(SOTA)을 달성하였다. 코드 및 모델은 향후 공개될 예정이다.

비디오 객체 탐지를 위한 비디오 간 제안 관계 탐사 | 연구 논문 | HyperAI초신경