2달 전

R-C3D: 시간 활동 감지용 영역 합성곱 3D 네트워크

Huijuan Xu; Abir Das; Kate Saenko
R-C3D: 시간 활동 감지용 영역 합성곱 3D 네트워크
초록

우리는 연속적인, 잘리지 않은 비디오 스트림에서 활동 검출 문제를 다룹니다. 이는 활동을 포착하기 위해 의미 있는 시공간 특성을 추출하고, 각 활동의 시작 시간과 종료 시간을 정확히 위치화해야 하는 어려운 작업입니다. 우리는 비디오 스트림을 3차원 완전 합성곱 네트워크로 인코딩한 후, 활동이 포함된 후보 시간 영역을 생성하고, 마지막으로 선택된 영역들을 특정 활동으로 분류하는 새로운 모델인 Region Convolutional 3D Network (R-C3D)를 소개합니다. 제안 단계와 분류 단계 간에 합성곱 특성을 공유함으로써 계산량이 절약됩니다. 전체 모델은 위치화와 분류 손실을 공동 최적화하여 엔드-투-엔드로 훈련됩니다. R-C3D는 기존 방법보다 빠르며(단일 Titan X Maxwell GPU에서 초당 569 프레임) THUMOS'14에서 최고 수준의 결과를 달성하였습니다. 또한 우리의 모델이 특정 데이터셋의 특성에 대한 가정에 의존하지 않는 일반적인 활동 검출 프레임워크임을 ActivityNet과 Charades 데이터셋에서 평가함으로써 입증하였습니다. 우리의 코드는 http://ai.bu.edu/r-c3d/ 에서 제공됩니다.