다중 에이전트 강화 학습 기반 프레임 샘플링을 이용한 효과적인 비편집 동영상 인식

비디오 인식은 큰 연구 관심을 받고 있으며, 많은 진전이 이루어졌습니다. 적절한 프레임 샘플링 전략은 인식의 정확성과 효율성을 향상시킬 수 있습니다. 그러나 주류 솔루션들은 일반적으로 인식을 위해 수작업으로 설계된 프레임 샘플링 전략을 채택하고 있습니다. 이는 특히 프레임 단위로 주요성이 다양하게 변하는 비가공 비디오에서 성능을 저하시킬 수 있습니다. 이를 해결하기 위해, 우리는 학습 기반의 프레임 샘플링 전략을 개발하여 비가공 비디오 분류를 개선하는 데 집중하였습니다.우리는 직관적으로 프레임 샘플링 절차를 여러 병렬 마르코프 결정 과정으로 정식화하였습니다. 각 과정은 초기 샘플링을 점진적으로 조정하여 하나의 프레임 또는 클립을 선택하는 것을 목표로 합니다. 그런 다음, 우리는 이러한 문제들을 다중 에이전트 강화 학습(MARL)으로 해결하기 위한 방법을 제안하였습니다. 우리의 MARL 프레임워크는 근처 에이전트들 사이의 맥락 정보와 특정 에이전트의 역사적 상태를 공동으로 모델링하는 새로운 RNN 기반 컨텍스트 인식 관찰 네트워크, 각 단계에서 사전 정의된 행동 공간에 대한 확률 분포를 생성하는 정책 네트워크, 그리고 보상 계산 및 최종 인식을 위한 분류 네트워크로 구성되어 있습니다.다양한 2D 및 3D 베이스라인 방법들과 함께 수행된 광범위한 실험 결과는 우리의 MARL 기반 방안이 수작업으로 설계된 전략들보다 현저히 우수함을 보여주었습니다. 우리의 단일 RGB 모델은 다중 모드 다중 모델 융합과 함께 ActivityNet v1.3 우승 제출작과 유사한 성능을 달성하였으며, YouTube Birds와 YouTube Cars 데이터셋에서 새로운 최신 결과를 얻었습니다.