
초록
비디오 동작 분류를 위한 모델 구축은 빠르게 발전하고 있다. 그러나 이러한 모델의 성능은 다양한 모달리티(예: 광학 흐름)로 학습된 동일한 모델들을 앙상블하는 방식으로 여전히 쉽게 향상될 수 있다. 그러나 추론 시 여러 모달리티를 사용하는 것은 계산적으로 비효율적인 문제가 있다. 최근 연구들은 다중 모달리티의 장점을 단일 RGB 모델에 통합하는 방법을 탐구하고 있다. 그럼에도 불구하고 여전히 개선의 여지가 존재한다. 본 논문에서는 단일 모델 내에 앙상블의 강력한 성능을 통합하는 다양한 방법을 탐색한다. 우리는 적절한 초기화와 상호 모달리티 학습이 단일 모달리티 모델의 성능을 향상시킨다는 것을 보여준다. 그 결과, Something-Something-v2 벤치마크에서 최신 기술 수준(SOTA)의 성과를 달성하였다.