2달 전

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 행동 인식의 미래는? 새로운 모델과 키네틱스 데이터셋

Joao Carreira; Andrew Zisserman
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
행동 인식의 미래는? 새로운 모델과 키네틱스 데이터셋
초록

현재의 동작 분류 데이터셋(UCF-101 및 HMDB-51)에서 비디오의 부족함으로 인해, 대부분의 방법이 기존 소규모 벤치마크에서 유사한 성능을 얻기 때문에 좋은 비디오 아키텍처를 식별하는 것이 어려웠습니다. 본 논문은 새로운 Kinetics 인간 행동 비디오 데이터셋을 바탕으로 최신 아키텍처를 재평가합니다. Kinetics는 400개의 인간 행동 클래스와 각 클래스당 400개 이상의 클립을 포함하며, 실제적인 도전 과제가 있는 YouTube 비디오에서 수집되었습니다. 이 데이터셋에서 현재 아키텍처가 동작 분류 작업에서 어떻게 수행되는지 그리고 Kinetics에서 사전 학습 후 소규모 벤치마크 데이터셋에서 성능이 얼마나 향상되는지를 분석합니다.또한, 2D ConvNet 확장을 기반으로 하는 새로운 Two-Stream Inflated 3D ConvNet (I3D)를 소개합니다. 매우 깊은 이미지 분류 ConvNets의 필터와 풀링 커널을 3D로 확장하여, 성공적인 ImageNet 아키텍처 설계와 그 매개변수를 활용하면서 비디오로부터 원활한 시공간 특성 추출기를 학습할 수 있게 되었습니다. 우리는 Kinetics에서 사전 학습 후 I3D 모델이 동작 분류에서 현 상태 최고 수준을 크게 개선함을 보여주며, HMDB-51에서는 80.9%, UCF-101에서는 98.0%의 정확도를 달성하였습니다.

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 행동 인식의 미래는? 새로운 모델과 키네틱스 데이터셋 | 최신 연구 논문 | HyperAI초신경