Command Palette
Search for a command to run...
M&M Mix: Eine multimodale Multiview-Transformer-Ensemble
M&M Mix: Eine multimodale Multiview-Transformer-Ensemble
Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid
Zusammenfassung
Dieser Bericht beschreibt die zugrundeliegende Herangehensweise unserer Siegerlösung am Action Recognition Challenge 2022 des Epic-Kitchens-Wettbewerbs. Unser Ansatz baut auf unserer kürzlich vorgestellten Arbeit „Multiview Transformer for Video Recognition (MTV)“ auf und wird an multimodale Eingaben angepasst. Unser endgültiger Beitrag besteht aus einer Ensemblesammlung von Multimodal MTV (M&M)-Modellen mit unterschiedlichen Backbone-Größen und Eingabemodalitäten. Unser Ansatz erzielte eine Top-1-Accuracy von 52,8 % auf dem Testset in Bezug auf Aktionsklassen, was 4,1 Prozentpunkte über dem Ergebnis des Siegerteams des Vorjahres liegt.