2달 전

깊은 합성곱 그래프 네트워크를 이용한 계층적 비디오 프레임 시퀀스 표현

Feng Mao; Xiang Wu; Hui Xue; Rong Zhang
깊은 합성곱 그래프 네트워크를 이용한 계층적 비디오 프레임 시퀀스 표현
초록

고도의 정확성을 가진 비디오 라벨 예측(분류) 모델은 대규모 데이터에 기인합니다. 이러한 데이터는 사전 학습된 컨벌루션 신경망(CNN)을 통해 추출된 프레임 특징 시퀀스일 수 있으며, 이는 모델 생성의 효율성을 향상시킵니다. 비지도 방법인 특징 평균 풀링과 같은 단순한 라벨 독립적이고 매개변수 없는 방법은 비디오를 표현하는 능력이 제한적입니다. 반면 지도 방법인 RNN과 같은 방법은 인식 정확도를 크게 향상시킬 수 있습니다. 그러나 비디오의 길이는 일반적으로 길며, 비디오 내부의 이벤트 간 프레임들 사이에는 계층적인 관계가 존재하므로, RNN 기반 모델의 성능이 저하됩니다. 본 논문에서는 깊은 컨벌루션 그래프 신경망(DCGN)을 기반으로 하는 새로운 비디오 분류 방법을 제안합니다. 제안된 방법은 비디오의 계층 구조 특성을 활용하여 그래프 네트워크를 통해 비디오 프레임 시퀀스에서 다중 수준의 특징 추출을 수행하여, 이벤트 의미론을 계층적으로 반영하는 비디오 표현을 얻습니다. 우리는 YouTube-8M 대규모 비디오 이해 데이터셋에서 우리의 모델을 테스트하였으며, 결과는 RNN 기반 벤치마크를 상회하였습니다.