2달 전

비디오를 위한 진화하는 시공간 신경망 구조

AJ Piergiovanni; Anelia Angelova; Alexander Toshev; Michael S. Ryoo
비디오를 위한 진화하는 시공간 신경망 구조
초록

우리는 비디오에서 풍부한 시공간 정보를 포착하는 새로운 비디오 CNN 아키텍처를 찾는 방법을 제시합니다. 이전 연구에서는 3D 컨볼루션을 활용하여 비디오 CNN 아키텍처를 수작업으로 설계함으로써 유망한 결과를 얻었습니다. 여기서 우리는 공간적과 시간적 측면 간의 상호작용을 공동으로 학습하기 위해 다양한 유형과 계층 조합의 모델을 자동으로 탐색하는 새로운 진화 알고리즘을 개발하였습니다. 이 알고리즘의 일반성을 입증하기 위해 두 가지 메타아키텍처에 적용하여 기존 수작업 설계 아키텍처보다 우수한 새로운 아키텍처를 획득하였습니다. 또한, 더 효율적으로 매개변수를 활용하여 긴 시간 범위에서 시공간 상호작용을 학습할 수 있는 새로운 구성 요소인 iTGM 레이어(iTGM layer)를 제안합니다. iTGM 레이어는 종종 진화 알고리즘에 의해 선호되며, 비용 효율적인 네트워크 구축을 가능하게 합니다. 제안된 접근 방식은 이전에 알려지지 않았던 새로운이고 다양성 있는 비디오 아키텍처를 발견하였습니다. 더욱 중요한 것은, 이들 아키텍처가 기존 모델보다 정확도가 높고 속도가 빠르며, HMDB, Kinetics, Moments in Time 등 여러 데이터셋에서 최신 기술(SOTA) 결과를 능가한다는 것입니다. 우리는 코드와 모델을 오픈 소스로 제공하여 향후 모델 개발을 촉진하고자 합니다.