
초록
깊은 합성곱 신경망(Deep Convolutional Neural Networks)은 이미지 인식 작업에서 큰 성공을 거두었습니다. 그러나 프레임별 평가가 너무 느리고 비용이 많이 들기 때문에 최신 이미지 인식 네트워크를 동영상으로 이전하는 것은 쉽지 않습니다. 본 연구에서는 빠르고 정확한 동영상 인식 프레임워크인 깊은 특징 흐름(Deep Feature Flow)을 제시합니다. 이 방법은 비싼 계산을 필요로 하는 합성곱 하위 네트워크를 희소한 주요 프레임(sparse key frames)에만 실행하고, 그 결과인 깊은 특징 맵(deep feature maps)을 흐름 필드(flow field)를 통해 다른 프레임으로 전파합니다. 흐름 계산(flow computation)이 상대적으로 빠르기 때문에 이 방법은 상당한 속도 향상을 달성할 수 있습니다. 전체 아키텍처의 엔드투엔드(end-to-end) 학습은 인식 정확도를 크게 향상시킵니다. 깊은 특징 흐름은 유연하고 일반적이며, 두 개의 최근 대규모 동영상 데이터셋에서 검증되었습니다. 이는 실용적인 동영상 인식에 큰 발걸음을 내딛는 것입니다.