2달 전

무엇을 언제 볼 것인가?: 비디오 관계 검출을 위한 시간적 범위 제안 네트워크

Sangmin Woo; Junhyug Noh; Kangil Kim
무엇을 언제 볼 것인가?: 비디오 관계 검출을 위한 시간적 범위 제안 네트워크
초록

물체 간의 관계를 식별하는 것은 장면 이해의 핵심입니다. 이미지 영역에서 관계 모델링을 위한 여러 연구가 제안되었지만, 비디오 영역에서는 시공간 상호작용의 도전적인 역학적 특성(예: 어떤 물체 간에 상호작용이 있는가? 관계는 언제 시작하고 언제 끝나는가?)으로 인해 많은 제약이 있었습니다. 지금까지 비디오 시각적 관계 검출(VidVRD) 문제를 해결하기 위해 두 가지 대표적인 방법이 제안되었습니다: 구간 기반(segment-based)과 창 기반(window-based) 방법입니다. 우리는 먼저 이러한 방법들의 한계점을 지적하고, 새로운 접근 방식인 시간 구간 제안 네트워크(TSPN, Temporal Span Proposal Network)를 제안합니다. TSPN은 무엇을 찾아야 하는지를 알려줍니다: 물체 쌍 간의 관계성을 점수화하여 관계 존재 가능성의 정도를 측정합니다. 또한 TSPN은 언제 찾아야 하는지를 알려줍니다: 전체 비디오 컨텍스트를 활용하여 모든 가능한 관계의 시작-종료 타임스탬프(즉, 시간 구간)와 범주를 동시에 예측합니다. 이 두 가지 설계는 윈윈 시나리오를 가능하게 합니다: 기존 방법보다 2배 이상 빠른 훈련 속도를 제공하면서도 두 개의 VidVRD 벤치마크(ImageNet-VidVDR과 VidOR)에서 경쟁력 있는 성능을 달성합니다. 또한 포괄적인 아블레이션 실험(ablative experiments)을 통해 우리의 접근 방식의 효과성이 입증되었습니다. 코드는 https://github.com/sangminwoo/Temporal-Span-Proposal-Network-VidVRD에서 확인할 수 있습니다.

무엇을 언제 볼 것인가?: 비디오 관계 검출을 위한 시간적 범위 제안 네트워크 | 최신 연구 논문 | HyperAI초신경