2달 전

CDC: Untrimmed 비디오에서 정확한 시간적 행동 위치 결정을 위한 합성곱-역합성곱 네트워크

Zheng Shou; Jonathan Chan; Alireza Zareian; Kazuyuki Miyazawa; Shih-Fu Chang
CDC: Untrimmed 비디오에서 정확한 시간적 행동 위치 결정을 위한 합성곱-역합성곱 네트워크
초록

시간적 행동 위치화는 중요한데도 불구하고 어려운 문제입니다. 여러 행동 인스턴스와 복잡한 배경 내용으로 구성된 긴, 미가공 비디오가 주어지면, 우리는 행동 범주를 인식하는 것뿐만 아니라 각 인스턴스의 시작 시간과 종료 시간을 정확히 위치화해야 합니다. 많은 최신 시스템은 사전 결정된 경계를 가진 제안 세그먼트를 선택하고 순위를 매기는 데에 세그먼트 수준 분류기를 사용합니다. 그러나 이상적인 모델은 세그먼트 수준을 넘어서 시간적으로 세밀한 단위에서 밀집된 예측을 수행하여 정확한 시간적 경계를 결정해야 합니다. 이를 위해, 3D ConvNets 위에 CDC 필터를 배치하는 새로운 Convolutional-De-Convolutional (CDC) 네트워크를 설계하였습니다. 3D ConvNets는 행동 의미론을 추상화하는 데 효과적이지만 입력 데이터의 시간 길이를 줄이는 것으로 알려져 있습니다. 제안된 CDC 필터는 필요한 시간적 업샘플링과 공간적 다운샘플링 작업을 동시에 수행하여 프레임 수준의 단위로 행동을 예측합니다. 이 필터는 공간-시간에서의 행동 의미론과 세밀한 시간 동역학을 공동으로 모델링하는 데 독특합니다. 우리는 효율적으로 end-to-end 방식으로 CDC 네트워크를 훈련시킵니다. 우리의 모델은 모든 프레임에서 행동을 감지하는 성능뿐 아니라 시간적 경계 위치화의 정밀성을 크게 향상시키는데 우수한 성능을 보입니다. 마지막으로, CDC 네트워크는 단일 GPU 서버에서 초당 500프레임 처리 능력을 보여 매우 높은 효율성을 입증하였습니다. 우리는 곧 카메라 레디 버전을 업데이트하고 소스 코드를 온라인으로 공개할 계획입니다.

CDC: Untrimmed 비디오에서 정확한 시간적 행동 위치 결정을 위한 합성곱-역합성곱 네트워크 | 최신 연구 논문 | HyperAI초신경