17일 전

X3D: 효율적인 비디오 인식을 위한 아키텍처 확장

Christoph Feichtenhofer
X3D: 효율적인 비디오 인식을 위한 아키텍처 확장
초록

이 논문은 공간, 시간, 너비 및 깊이의 다중 네트워크 축을 따라 소형 2D 이미지 분류 아키텍처를 점진적으로 확장하는 효율적인 영상 네트워크인 X3D를 제안한다. 기계학습 분야의 특징 선택 기법을 영감으로 삼아, 각 단계에서 단일 축만을 확장하는 간단한 단계별 네트워크 확장 방식을 사용함으로써 뛰어난 정확도와 복잡도의 균형을 달성한다. 특정 목표 복잡도로 X3D를 확장하기 위해, 전방 점진 확장 후 후방 수축을 수행한다. 기존 연구와 유사한 정확도를 달성하면서도, 곱셈-덧셈 연산 수는 4.8배, 파라미터 수는 5.5배 적게 요구하며 최신 기술 수준의 성능을 실현한다. 가장 놀라운 발견은 네트워크의 공간-시간 해상도가 높음에도 불구하고 네트워크의 너비와 파라미터 수가 매우 적어도 우수한 성능을 발휘할 수 있다는 점이다. 우리는 영상 분류 및 탐지 벤치마크에서 사전에 없던 수준의 효율성과 경쟁 가능한 정확도를 보고한다. 코드는 다음 주소에서 공개될 예정이다: https://github.com/facebookresearch/SlowFast

X3D: 효율적인 비디오 인식을 위한 아키텍처 확장 | 최신 연구 논문 | HyperAI초신경