HyperAIHyperAI

Command Palette

Search for a command to run...

Wechselseitiges Modalitätenlernen für die Video-Aktionsklassifikation

Stepan Komkov Maksim Dzabraev Aleksandr Petiushko

Zusammenfassung

Die Entwicklung von Modellen für die Video-Aktionsklassifikation schreitet rasant voran. Dennoch lässt sich die Leistung dieser Modelle durch Ensembling mit denselben Modellen, die auf unterschiedlichen Modalitäten (z. B. optischem Fluss) trainiert wurden, weiter verbessern. Leider ist die Nutzung mehrerer Modalitäten während der Inferenz rechenintensiv. In jüngsten Arbeiten wird untersucht, wie die Vorteile mehrerer Modalitäten in ein einziges RGB-Modell integriert werden können. Dennoch besteht weiterhin Verbesserungsbedarf. In diesem Paper untersuchen wir verschiedene Ansätze, um die Leistungsfähigkeit von Ensembles in ein einzelnes Modell einzubetten. Wir zeigen, dass eine geeignete Initialisierung sowie gegenseitiges Lernen zwischen Modalitäten die Leistung einzelner Modality-Modelle verbessert. Als Ergebnis erreichen wir state-of-the-art-Ergebnisse auf dem Something-Something-v2-Benchmark.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wechselseitiges Modalitätenlernen für die Video-Aktionsklassifikation | Paper | HyperAI