2달 전
ECO: 온라인 비디오 이해를 위한 효율적인 컨볼루션 네트워크
Mohammadreza Zolfaghari; Kamaljeet Singh; Thomas Brox

초록
비디오 이해의 최신 기술은 두 가지 문제를 가지고 있습니다: (1) 비디오 내에서 주요 추론이 국소적으로 이루어지기 때문에, 몇 초에 걸쳐 진행되는 행동 간의 중요한 관계를 놓치는 경향이 있습니다. (2) 프레임 당 빠른 처리가 가능한 국소적 방법들이 있지만, 전체 비디오의 처리가 효율적이지 않아 긴 활동의 빠른 비디오 검색이나 온라인 분류에 지장을 줍니다. 본 논문에서는 장기적인 내용을 고려하면서 동시에 비디오당 빠른 처리를 가능하게 하는 네트워크 아키텍처를 소개합니다. 이 아키텍처는 사후 결합(post-hoc fusion)이 아닌 네트워크 내에서 장기적인 내용을 합치는 방식을 기반으로 합니다. 이와 함께 인접한 프레임들이 대부분 중복되므로 이를 활용하는 샘플링 전략과 함께 사용하면, 각 비디오가 수백 개의 프레임으로 구성될 경우 최대 230개의 비디오를 초당 처리하면서 고품질의 행동 분류와 비디오 캡셔닝을 제공할 수 있습니다. 이 접근법은 모든 데이터셋에서 경쟁력 있는 성능을 보여주면서도 최신 방법들보다 10배에서 80배 더 빠릅니다.