2달 전
다중 섬유 네트워크를 이용한 비디오 인식
Yunpeng Chen; Yannis Kalantidis; Jianshu Li; Shuicheng Yan; Jiashi Feng

초록
본 논문에서는 시공간 딥 뉴럴 네트워크의 계산 비용을 줄여, 2D 모델과 동등한 속도로 실행하면서 비디오 인식 벤치마크에서 최고 수준의 정확성을 유지하는 것을 목표로 합니다. 이를 위해 복잡한 신경망을 경량화된 여러 개의 서브네트워크 또는 파이버(fiber)로 분할하여 네트워크를 통과시키는 새로운 멀티-파이버(Multi-Fiber) 아키텍처를 제안합니다. 파이버 간 정보 흐름을 촉진하기 위해 멀티플렉서 모듈을 추가하여, 3D 네트워크의 계산 비용을 한 자릿수 이상 줄이는 동시에 인식 성능을 향상시키는 아키텍처를 완성하였습니다. 광범위한 실험 결과는 우리의 멀티-파이버 아키텍처가 이미지와 비디오 인식 작업 모두에서 기존의 컨볼루션 네트워크 효율성을 크게 향상시킨다는 것을 보여주며, UCF-101, HMDB-51 및 Kinetics 데이터셋에서 최고 수준의 성능을 달성하였습니다. 제안된 모델은 I3D 및 R(2+1)D 모델에 비해 각각 9배 이상과 13배 이상 적은 계산량을 요구하지만, 더 높은 정확성을 제공합니다.