11일 전

저해상도 비디오 인코더 최적화를 통한 시계열 동작 탐지

{Brais Martinez, Bernard Ghanem, Xiatian Zhu, Juan Manuel Perez Rua, Mengmeng Xu}
저해상도 비디오 인코더 최적화를 통한 시계열 동작 탐지
초록

기존의 대부분의 시간적 동작 로컬라이제이션(TAL) 방법들은 전이 학습(transfer learning) 파이프라인에 의존한다. 즉, 먼저 대규모 동작 분류 데이터셋(즉, 소스 도메인)에서 비디오 인코더를 최적화한 후, 인코더를 고정하고 TAL 로컬라이제이션 데이터셋(즉, 타겟 도메인)에서 TAL 헤드를 학습하는 방식이다. 이로 인해 비디오 인코더에 작업 불일치 문제(task discrepancy problem)가 발생한다. 인코더는 동작 분류 작업을 위해 훈련되었지만, 실제로는 TAL 작업에 사용되기 때문이다. 직관적으로 비디오 인코더와 TAL 헤드를 동시에 최적화하는 것은 이 불일치 문제를 해결할 수 있는 강력한 기초 솔루션이다. 그러나 긴 트림되지 않은 비디오를 처리할 때 발생하는 막대한 계산 비용으로 인해, GPU 메모리 제약 조건 하에서 TAL에 이러한 접근은 실행이 불가능하다. 본 논문에서는 새로운 저품질(Low-fidelity, LoFi) 비디오 인코더 최적화 방법을 제안하여 이 문제를 해결한다. TAL 학습 시 항상 완전한 훈련 설정을 사용하는 대신, 시간적, 공간적, 또는 시공간 해상도 측면에서 미니배치 구성의 복잡성을 줄이는 방식을 제안한다. 이를 통해 중급 수준의 하드웨어 예산에서도 비디오 인코더와 TAL 헤드를 동시에 최적화하는 것이 가능해진다. 특히 이 방법은 TAL 감독 손실에 기반하여 비디오 인코더를 통해 역전파를 가능하게 하여, 작업 불일치 문제를 유리하게 해결하고 더 효과적인 특징 표현을 제공한다. 광범위한 실험 결과에 따르면, 제안하는 LoFi 최적화 접근법은 기존 TAL 방법의 성능을 크게 향상시킬 수 있음을 확인하였다. 특히 흥미롭게도, 단일 RGB 스트림 기반의 경량 ResNet18 기반 비디오 인코더를 사용함에도 불구하고, 두 개의 스트림(RGB + 광학 흐름) 기반 ResNet50 대안보다 종종 뚜렷한 성능 우위를 보였다.

저해상도 비디오 인코더 최적화를 통한 시계열 동작 탐지 | 최신 연구 논문 | HyperAI초신경