17일 전

M&M 믹스: 다중모달 다중뷰 트랜스포머 앙상블

Xuehan Xiong, Anurag Arnab, Arsha Nagrani, Cordelia Schmid
M&M 믹스: 다중모달 다중뷰 트랜스포머 앙상블
초록

이 보고서는 2022년 에픽 키친스(ACTION RECOGNITION CHALLENGE)에서 수상한 우리의 솔루션에 대한 접근 방식을 설명한다. 본 연구에서 제안하는 방법은 최근에 발표한 '비디오 인식을 위한 다중 시점 트랜스포머(Multiview Transformer for Video Recognition, MTV)' 기반으로, 이를 다중 모달 입력에 적합하게 개선한 것이다. 최종 제출물은 백본 크기와 입력 모달리티가 다른 다중 모달 MTV(M&M) 모델들의 앙상블로 구성되어 있다. 본 방법은 행동 클래스 기준으로 테스트 세트에서 52.8%의 Top-1 정확도를 달성하였으며, 지난해 우승 팀의 성능보다 4.1% 높은 성과를 기록했다.