2달 전

Spatio-Temporal Representation을 위한 Pseudo-3D Residual Networks 학습

Zhaofan Qiu; Ting Yao; Tao Mei
Spatio-Temporal Representation을 위한 Pseudo-3D Residual Networks 학습
초록

컨벌루션 신경망(CNN)은 이미지 인식 문제에 있어 강력한 모델 클래스로 알려져 있습니다. 그러나 비디오의 시공간 표현을 학습하기 위해 CNN을 활용할 때는 간단하지 않은 문제가 발생합니다. 몇몇 연구에서는 3D 컨벌루션을 수행하는 것이 비디오에서 공간적과 시간적 차원을 모두 포착하는 데 효과적인 접근 방식임을 보여주었습니다. 그러나 처음부터 매우 깊은 3D CNN을 개발하는 것은 비싼 계산 비용과 메모리 요구를 초래합니다. 이에 대한 타당한 질문은 기존의 2D 네트워크를 재활용하여 3D CNN을 구성하지 않는 이유입니다.본 논문에서는 잔차 학습 프레임워크에서 병목 구조(bottleneck) 빌딩 블록의 여러 변형을 설계하였습니다. 이는 $3\times3\times3$ 컨벌루션 필터를 $1\times3\times3$ 컨벌루션 필터(공간 영역에서 2D CNN과 동일)와 $3\times1\times1$ 컨벌루션으로 시뮬레이션하여 시간 영역에서 인접한 특성 맵(feature map) 간의 시간적 연결성을 구축하는 방법입니다. 또한, 우리는 이러한 블록들의 모든 변형을 활용하면서도 각각이 ResNet 내에서 다른 위치에 배치되는 새로운 아키텍처인 가상 3D 잔차 네트워크(Pseudo-3D Residual Net, P3D ResNet)를 제안합니다. 이는 깊이를 늘릴수록 구조적 다양성을 향상시키면 신경망의 성능이 향상될 수 있다는 철학에 따라 이루어졌습니다.우리의 P3D ResNet은 3D CNN과 프레임 기반 2D CNN 대비 Sports-1M 비디오 분류 데이터셋에서 각각 5.3%와 1.8%의 명확한 개선을 보였습니다. 또한, 사전 학습된 P3D ResNet으로 생성된 비디오 표현의 일반화 성능을 다섯 가지 다른 벤치마크와 세 가지 다른 작업에서 검증하였으며, 여러 최신 기술들보다 우수한 성능을 보였습니다.

Spatio-Temporal Representation을 위한 Pseudo-3D Residual Networks 학습 | 최신 연구 논문 | HyperAI초신경