2달 전

AssembleNet: 비디오 아키텍처에서 다중 스트림 신경 연결 탐색

Ryoo, Michael S. ; Piergiovanni, AJ ; Tan, Mingxing ; Angelova, Anelia
AssembleNet: 비디오 아키텍처에서 다중 스트림 신경 연결 탐색
초록

비디오 표현을 학습하는 것은 알고리즘적이고 계산적으로 매우 어려운 과제입니다. 표준 비디오 CNN 구조는 이미지 이해를 위한 구조를 시간 차원을 포함하도록 직접 확장하여 설계되었거나, 비디오에서의 외관과 운동을 포착하기 위해 두 스트림 설계를 사용하여 설계되었습니다. 우리는 비디오 CNN을 서로 연결된 다중 스트림 컨볼루션 블록들의 집합으로 해석하고, 비디오 이해를 위한 더 나은 연결성과 시공간 상호작용을 자동으로 찾는 접근 방식을 제안합니다. 이는 연결 가중치 학습에 의해 안내되는 과도하게 연결된 구조들의 집단을 진화시키는 방법으로 수행됩니다. RGB와 광학 흐름 등 다양한 입력 유형의 표현들을 여러 시간 해상도에서 추상화하는 구조들을 검색함으로써, 다른 유형이나 정보 출처가 서로 상호작용할 수 있도록 합니다. 우리의 방법인 AssembleNet(어셈블넷)은 공개 비디오 데이터셋에서 기존 접근 방식보다 우수한 성능을 보여주며, 일부 경우에서는 크게 앞서는 결과를 얻었습니다. 우리는 Charades 데이터셋에서 58.6%의 mAP와 Moments-in-Time 데이터셋에서 34.27%의 정확도를 달성했습니다.

AssembleNet: 비디오 아키텍처에서 다중 스트림 신경 연결 탐색 | 최신 연구 논문 | HyperAI초신경