HyperAIHyperAI
vor 2 Monaten

XKD: Cross-modale Wissensverdichtung mit Domänenausrichtung für das Lernen von Video-Darstellungen

Pritam Sarkar; Ali Etemad
XKD: Cross-modale Wissensverdichtung mit Domänenausrichtung für das Lernen von Video-Darstellungen
Abstract

Wir stellen XKD vor, einen neuen selbstüberwachten Rahmen zur Lernung von sinnvollen Repräsentationen aus unbeschrifteten Videos. XKD wird mit zwei Pseudo-Zielfunktionen trainiert. Erstens wird eine maskebasierte Datenrekonstruktion durchgeführt, um modalspezifische Repräsentationen aus den Audiodaten und den visuellen Datenströmen zu lernen. Anschließend erfolgt eine selbstüberwachte, kreuzmodale Wissensverteilung (cross-modal knowledge distillation) zwischen den beiden Modalitäten durch ein Lehrer-Schüler-Setup, um ergänzende Informationen zu lernen. Wir führen eine neuartige Domänenanpassungsstrategie ein, um die Domänenunterschiede zwischen den Audiodaten und den visuellen Modalitäten zu bewältigen und so eine effektive kreuzmodale Wissensverteilung zu ermöglichen. Darüber hinaus werden modalinvariante Varianten von XKD eingeführt, um ein allgemein nutzbares Netzwerk zu entwickeln, das sowohl Audiodaten als auch visuelle Datenströme verarbeiten kann. Diese Varianten verwenden dasselbe vortrainierte Backbone-Netzwerk für verschiedene auditive und visuelle Aufgaben. Unsere vorgeschlagene kreuzmodale Wissensverteilung verbessert die Video-Aktionsklassifikation auf UCF101, HMDB51 und Kinetics400 um 8 % bis 14 %. Zudem erhöht XKD die multimo-dale Aktionsklassifikation auf Kinetics-Sound um 5,5 %. In der Klassifikation von Sounds zeigt XKD auf ESC50 Spitzenleistungen und erreicht eine Top-1-Akkuratesse von 96,5 %.

XKD: Cross-modale Wissensverdichtung mit Domänenausrichtung für das Lernen von Video-Darstellungen | Neueste Forschungsarbeiten | HyperAI