2달 전

Hallucinating IDT Descriptors and I3D Optical Flow Features for Action Recognition with CNNs CNN을 이용한 동작 인식을 위한 Hallucinating IDT 디스크립터와 I3D 광학 흐름 특성

Lei Wang; Piotr Koniusz; Du Q. Huynh
Hallucinating IDT Descriptors and I3D Optical Flow Features for Action Recognition with CNNs
CNN을 이용한 동작 인식을 위한 Hallucinating IDT 디스크립터와 I3D 광학 흐름 특성
초록

본 논문에서는 행동 인식을 위해 과거의 수작업 비디오 표현을 되살리고, 이를 CNN 기반 환각 단계를 통해 새로운 생명력을 불어넣습니다. RGB와 광학 흐름 프레임을 사용함에도 불구하고, I3D 모델(그 외 다른 모델들 포함)은 개선된 밀도 경로(IDT)와 그로부터 추출된 낮은 수준의 비디오 설명자를 BoW(Bag-of-Words) 및 FV(Fisher Vectors)를 통해 인코딩하여 결합하는 데 탁월합니다. 이러한 CNN과 수작업 표현의 융합은 사전 처리, 설명자 추출, 인코딩 및 매개변수 조정으로 인해 시간이 많이 소요됩니다. 따라서, 우리는 학습 단계에서 IDT 기반 BoW/FV 표현을 학습하고 I3D 모델과 쉽게 통합할 수 있는 엔드투엔드 학습 가능한 네트워크를 제안합니다. 구체적으로, 각 스트림은 마지막 1D 컨볼루션 계층 직전의 I3D 특성 맵을 받아 이 맵들을 BoW/FV 표현으로 '번역'하는 방법을 학습합니다. 따라서, 우리의 모델은 테스트 단계에서 이러한 합성된 BoW/FV 표현을 환각하고 사용할 수 있습니다. 우리는 전체 I3D 광학 흐름 스트림의 특성까지 환각될 수 있음을 보여주며, 이는 파이프라인을 간소화시킵니다. 우리의 모델은 20-55시간의 계산 시간을 절약하며, 네 개의 공개 데이터셋에서 최신 연구 결과를 도출하였습니다.

Hallucinating IDT Descriptors and I3D Optical Flow Features for Action Recognition with CNNs CNN을 이용한 동작 인식을 위한 Hallucinating IDT 디스크립터와 I3D 광학 흐름 특성 | 최신 연구 논문 | HyperAI초신경