2달 전

스페이스타임 특성 학습 재고찰: 비디오 분류에서 속도-정확도의 균형

Saining Xie; Chen Sun; Jonathan Huang; Zhuowen Tu; Kevin Murphy
스페이스타임 특성 학습 재고찰: 비디오 분류에서 속도-정확도의 균형
초록

컨볼루션 신경망(CNNs)의 도입으로 비디오 분석 분야에서 꾸준한 진전이 이루어졌지만, 2D 정적 이미지 분류에 비해 상대적인 개선은 덜 극적이었다. 공간(이미지) 특성 표현, 시간 정보 표현, 그리고 모델/계산 복잡도를 포함하여 세 가지 주요 과제가 존재한다. 최근 Carreira와 Zisserman은 2D 네트워크에서 확장되고 ImageNet에서 사전 학습된 3D CNNs가 공간 및 시간 표현 학습을 위한 유망한 방법일 수 있음을 보여주었다. 그러나 모델/계산 복잡도 측면에서는 3D CNNs가 2D CNNs보다 훨씬 비싸고 과적합하기 쉽다는 문제가 있다. 우리는 효과적이고 효율적인 비디오 분류 시스템을 구축하여 중요한 네트워크 설계 선택지를 체계적으로 탐색함으로써 속도와 정확성 사이의 균형을 추구한다. 특히, 많은 3D 컨볼루션이 저렴한 2D 컨볼루션으로 대체될 수 있음을 보였다. 놀랍게도, 네트워크 하단의 3D 컨볼루션을 대체할 때 가장 좋은 결과(속도와 정확성 모두)를 얻었는데, 이는 고차원 의미론적 특성을 이용한 시간 표현 학습이 더 유용하다는 것을 시사한다. 우리의 결론은 매우 다른 특성을 가진 데이터셋에도 일반화된다. 공간/시간 컨볼루션과 피처 게이팅 등의 여러 다른 비용 효율적인 설계를 결합하면, Kinetics, Something-something, UCF101 및 HMDB 등 여러 동작 분류 벤치마크에서 매우 경쟁력 있는 결과를 생성하는 효과적인 비디오 분류 시스템을 만들 수 있다. 또한 JHMDB와 UCF101-24 두 개의 동작 감지(위치 파악) 벤치마크에서도 경쟁력 있는 결과를 얻을 수 있다.

스페이스타임 특성 학습 재고찰: 비디오 분류에서 속도-정확도의 균형 | 최신 연구 논문 | HyperAI초신경