vor 6 Monaten

Zusammenfassung

Dieser Bericht beschreibt die zugrundeliegende Herangehensweise unserer Siegerlösung am Action Recognition Challenge 2022 des Epic-Kitchens-Wettbewerbs. Unser Ansatz baut auf unserer kürzlich vorgestellten Arbeit „Multiview Transformer for Video Recognition (MTV)“ auf und wird an multimodale Eingaben angepasst. Unser endgültiger Beitrag besteht aus einer Ensemblesammlung von Multimodal MTV (M&M)-Modellen mit unterschiedlichen Backbone-Größen und Eingabemodalitäten. Unser Ansatz erzielte eine Top-1-Accuracy von 52,8 % auf dem Testset in Bezug auf Aktionsklassen, was 4,1 Prozentpunkte über dem Ergebnis des Siegerteams des Vorjahres liegt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

M&M Mix: Eine multimodale Multiview-Transformer-Ensemble | Paper | HyperAI

Command Palette

M&M Mix: Eine multimodale Multiview-Transformer-Ensemble

Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

M&M Mix: Eine multimodale Multiview-Transformer-Ensemble

Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

M&M Mix: Eine multimodale Multiview-Transformer-Ensemble

Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters