2달 전

비디오에서 행동 인식을 위한 시간적 세그먼트 네트워크

Wang, Limin ; Xiong, Yuanjun ; Wang, Zhe ; Qiao, Yu ; Lin, Dahua ; Tang, Xiaoou ; Van Gool, Luc
비디오에서 행동 인식을 위한 시간적 세그먼트 네트워크
초록

깊은 합성곱 네트워크는 이미지 인식에서 큰 성공을 거두었습니다. 그러나 비디오의 동작 인식에서는 전통적인 방법에 비해 그 우위성이 명확하지 않습니다. 본 연구에서는 비디오 수준의 일반적이고 유연한 프레임워크를 제시하여 비디오에서 동작 모델을 학습합니다. 이 방법은 시간 구간 네트워크(TSN)로 불리며, 새로운 구간 기반 샘플링 및 집계 모듈을 통해 장기적인 시간 구조를 모델링하는 것을 목표로 합니다. 이러한 독특한 설계는 전체 동작 비디오를 사용하여 효율적으로 동작 모델을 학습할 수 있게 해줍니다. 학습된 모델은 간단한 평균 풀링과 다중 스케일 시간 창 통합을 통해 각각 잘라낸(trimming) 비디오와 잘라내지 않은(untrimmed) 비디오에서 동작 인식에 쉽게 적응할 수 있습니다. 또한, 제한된 훈련 샘플이 주어졌을 때 TSN 프레임워크의 구현을 위한 일련의 좋은 관행들을 연구하였습니다. 우리의 접근법은 HMDB51(71.0%), UCF101(94.9%), THUMOS14(80.1%), 그리고 ActivityNet v1.2(89.6%)라는 네 가지 도전적인 동작 인식 벤치마크에서 최고의 성능을 달성하였습니다. 제안된 RGB 차이를 운동 모델에 사용함으로써, 우리의 방법은 UCF101에서 여전히 경쟁력 있는 정확도(91.0%)를 달성하면서 340 FPS로 실행됩니다. 더욱이, 시간 구간 네트워크를 기반으로 하여 24개 팀 중 2016년 ActivityNet 챌린지의 비디오 분류 트랙에서 우승하였으며, 이는 TSN과 제안된 좋은 관행들의 효과성을 입증합니다.

비디오에서 행동 인식을 위한 시간적 세그먼트 네트워크 | 최신 연구 논문 | HyperAI초신경