15일 전

비디오 내 시계열 활동 탐지를 위한 코어스-파인 네트워크

Kumara Kahatapitiya, Michael S. Ryoo
비디오 내 시계열 활동 탐지를 위한 코어스-파인 네트워크
초록

본 논문에서는 장기적 운동 정보를 더 잘 학습하기 위해 시간 해상도의 다양한 추상화를 활용하는 이중 스트림 아키텍처인 Coarse-Fine Networks를 제안한다. 기존의 비디오 모델은 고정된 하나(또는 몇 개의) 시간 해상도에서 입력을 처리하며, 프레임을 동적으로 선택하지 않는다. 그러나 우리는 입력에 대해 다양한 시간 해상도를 동적으로 처리하고, 각 프레임의 중요도를 학습을 통해 추정함으로써 비디오 표현을 크게 향상시킬 수 있다고 주장한다. 특히 시간적 활동 위치 추정(Time Activity Localization) 분야에서 이러한 접근은 큰 성능 향상을 가져올 수 있다. 이를 위해 우리는 (1) 거시적 특징을 추출하기 위한 학습 가능한 시간 다운샘플링 레이어인 Grid Pool과, (2) 미세한 시공간적 맥락을 거시적 특징과 융합하기 위한 다단계 융합 기법인 Multi-stage Fusion을 제안한다. 제안한 방법은 Charades를 포함한 공개 데이터셋에서 행동 탐지(task)에서 최신 기술(SOTA)을 상회하며, 계산량과 메모리 사용량을 크게 줄일 수 있음을 실험을 통해 입증하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/kkahatapitiya/Coarse-Fine-Networks

비디오 내 시계열 활동 탐지를 위한 코어스-파인 네트워크 | 최신 연구 논문 | HyperAI초신경