Entwicklung von Verlustfunktionen für das unüberwachte Lernen von Video-Darstellungen

Wir präsentieren eine neue Methode zur Lernung von Video-Darstellungen aus umfangreichen, nicht gekennzeichneten Videodaten. Ideal wäre es, dass diese Darstellung generisch und übertragbar ist und direkt für neue Aufgaben wie Aktionserkennung und Zero- oder Few-Shot-Lernen nutzbar ist. Wir formulieren das unüberwachte Lernen von Darstellungen als ein multimodales, multitasking-basiertes Lernproblem, bei dem die Darstellungen durch Destillierung über verschiedene Modalitäten hinweg geteilt werden. Des Weiteren führen wir das Konzept der Evolutionsfunktion des Verlusts ein, indem wir einen evolutionären Suchalgorithmus verwenden, um automatisch optimale Kombinationen von Verlustfunktionen zu finden, die viele (selbstüberwachte) Aufgaben und Modalitäten erfassen. Drittens schlagen wir eine unüberwachte Evaluationsmetrik für Darstellungen vor, die auf der Verteilungsangleichung an ein großes nicht gekennzeichnetes Datenset basiert und durch Zipf'sches Gesetz als a-priori-Bedingung definiert wird. Diese unüberwachte Bedingung, die durch keine Kennzeichnung geleitet wird, erzeugt ähnliche Ergebnisse wie schwach überwachte, aufgabenspezifische Methoden. Das vorgeschlagene unüberwachte Lernen von Video-Darstellungen resultiert in einem einzelnen RGB-Netzwerk und übertreffen bisherige Methoden. Bemerkenswerterweise ist es auch effektiver als mehrere labelbasierte Methoden (z.B. ImageNet), mit Ausnahme großer, vollständig gekennzeichneter Videodatensätze.