2달 전
AssembleNet: 비디오 아키텍처에서 다중 스트림 신경 연결 탐색
Ryoo, Michael S. ; Piergiovanni, AJ ; Tan, Mingxing ; Angelova, Anelia

초록
비디오 표현을 학습하는 것은 알고리즘적이고 계산적으로 매우 어려운 과제입니다. 표준 비디오 CNN 구조는 이미지 이해를 위한 구조를 시간 차원을 포함하도록 직접 확장하여 설계되었거나, 비디오에서의 외관과 운동을 포착하기 위해 두 스트림 설계를 사용하여 설계되었습니다. 우리는 비디오 CNN을 서로 연결된 다중 스트림 컨볼루션 블록들의 집합으로 해석하고, 비디오 이해를 위한 더 나은 연결성과 시공간 상호작용을 자동으로 찾는 접근 방식을 제안합니다. 이는 연결 가중치 학습에 의해 안내되는 과도하게 연결된 구조들의 집단을 진화시키는 방법으로 수행됩니다. RGB와 광학 흐름 등 다양한 입력 유형의 표현들을 여러 시간 해상도에서 추상화하는 구조들을 검색함으로써, 다른 유형이나 정보 출처가 서로 상호작용할 수 있도록 합니다. 우리의 방법인 AssembleNet(어셈블넷)은 공개 비디오 데이터셋에서 기존 접근 방식보다 우수한 성능을 보여주며, 일부 경우에서는 크게 앞서는 결과를 얻었습니다. 우리는 Charades 데이터셋에서 58.6%의 mAP와 Moments-in-Time 데이터셋에서 34.27%의 정확도를 달성했습니다.