17일 전

시계열 쿼리 네트워크를 통한 세부적인 비디오 이해

Chuhan Zhang, Ankush Gupta, Andrew Zisserman
시계열 쿼리 네트워크를 통한 세부적인 비디오 이해
초록

이 연구의 목적은 시간적으로 길게 확장되거나 단지 비디오의 몇 프레임에만 해당하는 행동을 세밀하게 분류하는 것이다. 우리는 이 문제를 각각 특정한 질문에 대응하는 쿼리와 그에 해당하는 응답 레이블 집합을 가진 쿼리-응답 메커니즘으로 모델링한다. 본 연구는 다음과 같은 네 가지 기여를 한다. (I) 우리는 새로운 모델인 시간적 쿼리 네트워크(Temporal Query Network, TQN)를 제안한다. 이 모델은 쿼리-응답 기능을 가능하게 하며, 세밀한 행동에 대한 구조적 이해를 제공한다. TQN은 각 쿼리에 대해 관련된 시계열 구간에 주목하기 위해 시간적 어텐션 메커니즘을 활용하며, 각 쿼리의 레이블만을 사용하여 학습이 가능하다. (ii) 세밀한 쿼리에 응답하기 위해 필수적인 밀도 높은 샘플링을 요구하는 다양한 길이의 비디오에서 네트워크를 학습하기 위한 새로운 방법—확률적 특징 은행 업데이트(stochastic feature bank update)—를 제안한다. (iii) TQN을 다른 아키텍처 및 텍스트 감독 방법과 비교하여 각각의 장단점을 분석한다. 마지막으로, (iv) RGB 특징만을 사용하여 FineGym 및 Diving48 벤치마크에서 세밀한 행동 분류 작업에 대해 광범위한 평가를 수행하고, 기존 최고 성능을 초월하는 결과를 얻었다.