
물체 간의 관계를 식별하는 것은 장면 이해의 핵심입니다. 이미지 영역에서 관계 모델링을 위한 여러 연구가 제안되었지만, 비디오 영역에서는 시공간 상호작용의 도전적인 역학적 특성(예: 어떤 물체 간에 상호작용이 있는가? 관계는 언제 시작하고 언제 끝나는가?)으로 인해 많은 제약이 있었습니다. 지금까지 비디오 시각적 관계 검출(VidVRD) 문제를 해결하기 위해 두 가지 대표적인 방법이 제안되었습니다: 구간 기반(segment-based)과 창 기반(window-based) 방법입니다. 우리는 먼저 이러한 방법들의 한계점을 지적하고, 새로운 접근 방식인 시간 구간 제안 네트워크(TSPN, Temporal Span Proposal Network)를 제안합니다. TSPN은 무엇을 찾아야 하는지를 알려줍니다: 물체 쌍 간의 관계성을 점수화하여 관계 존재 가능성의 정도를 측정합니다. 또한 TSPN은 언제 찾아야 하는지를 알려줍니다: 전체 비디오 컨텍스트를 활용하여 모든 가능한 관계의 시작-종료 타임스탬프(즉, 시간 구간)와 범주를 동시에 예측합니다. 이 두 가지 설계는 윈윈 시나리오를 가능하게 합니다: 기존 방법보다 2배 이상 빠른 훈련 속도를 제공하면서도 두 개의 VidVRD 벤치마크(ImageNet-VidVDR과 VidOR)에서 경쟁력 있는 성능을 달성합니다. 또한 포괄적인 아블레이션 실험(ablative experiments)을 통해 우리의 접근 방식의 효과성이 입증되었습니다. 코드는 https://github.com/sangminwoo/Temporal-Span-Proposal-Network-VidVRD에서 확인할 수 있습니다.