19일 전

비디오 동작 분류를 위한 상호 모달리티 학습

Stepan Komkov, Maksim Dzabraev, Aleksandr Petiushko
비디오 동작 분류를 위한 상호 모달리티 학습
초록

비디오 동작 분류를 위한 모델 구축은 빠르게 발전하고 있다. 그러나 이러한 모델의 성능은 다양한 모달리티(예: 광학 흐름)로 학습된 동일한 모델들을 앙상블하는 방식으로 여전히 쉽게 향상될 수 있다. 그러나 추론 시 여러 모달리티를 사용하는 것은 계산적으로 비효율적인 문제가 있다. 최근 연구들은 다중 모달리티의 장점을 단일 RGB 모델에 통합하는 방법을 탐구하고 있다. 그럼에도 불구하고 여전히 개선의 여지가 존재한다. 본 논문에서는 단일 모델 내에 앙상블의 강력한 성능을 통합하는 다양한 방법을 탐색한다. 우리는 적절한 초기화와 상호 모달리티 학습이 단일 모달리티 모델의 성능을 향상시킨다는 것을 보여준다. 그 결과, Something-Something-v2 벤치마크에서 최신 기술 수준(SOTA)의 성과를 달성하였다.

비디오 동작 분류를 위한 상호 모달리티 학습 | 최신 연구 논문 | HyperAI초신경