
기존의 행동 인식 방법은 주로 두 개의 스트림 CNN 또는 3D CNN과 같은 클립 수준 분류기 기반으로 이루어지며, 이는 훈련 시 무작위로 선택된 클립에서 학습하고, 테스트 시에는 밀집 샘플링된 클립에 적용된다. 그러나 이러한 표준 설정은 분류기 훈련에 있어서 최적의 환경이 아니며, 실질적인 배포 시에는 막대한 계산 부담을 수반한다. 이러한 문제를 해결하기 위해, 우리는 동적 샘플링 모듈을 설계함으로써 학습된 클립 수준 분류기의 구분 능력을 향상시키고, 동시에 테스트 시 추론 효율성을 증가시키는 새로운 동영상 행동 인식 프레임워크인 {\em 동적 샘플링 네트워크}(Dynamic Sampling Networks, DSN)를 제안한다. 구체적으로 DSN은 샘플링 모듈과 분류 모듈로 구성되며, 각각의 목적은 선택된 클립을 실시간으로 선정할 수 있는 샘플링 정책을 학습하고, 해당 클립 기반으로 행동 인식을 수행할 수 있는 클립 수준 분류기를 훈련하는 것이다. 특히 입력 동영상을 기반으로, 올바른 예측을 달성한 선택된 클립에 대해 보상이 최대화되도록 연관 강화 학습 환경에서 관측 네트워크를 훈련한다. 우리는 UCF101, HMDB51, THUMOS14, ActivityNet v1.3의 네 가지 행동 인식 데이터셋을 대상으로 DSN 프레임워크의 다양한 측면에 대해 광범위한 실험을 수행하였다. 실험 결과, DSN은 전체 클립의 절반 미만을 사용함에도 불구하고, 최신 기술 수준의 접근법과 비슷하거나 약간 더 높은 정확도를 달성하면서 추론 효율성을 크게 향상시킬 수 있음을 입증하였다.