Federated Self-supervised Learning für Videoverstehen

Die Verbreitung von mobiltelefonbasierten Geräten mit Kamerafunktion hat eine enorme Menge an ungelabelten Videodaten am Edge-Computing-Ende hervorgebracht. Obwohl verschiedene selbstüberwachte Lernmethoden (Self-Supervised Learning, SSL) vorgeschlagen wurden, um deren latente räumlich-zeitliche Repräsentationen für aufgabenbezogene Trainingsprozesse zu erschließen, erschweren praktische Herausforderungen wie Datenschutzbedenken und Kommunikationskosten eine großflächige Implementierung von SSL. Um diese Probleme zu mindern, schlagen wir die Anwendung von Federated Learning (FL) für die Aufgabe der Video-SSL vor. In dieser Arbeit bewerten wir die Leistung aktueller State-of-the-Art (SOTA)-Verfahren der Video-SSL und identifizieren deren Schwächen, wenn sie in eine großskalige FL-Umgebung integriert werden, wie sie mithilfe des Kinetics-400-Datensatzes simuliert wird. Anschließend stellen wir einen neuartigen federierten SSL-Framework für Videos vor, das wir FedVSSL nennen, welches verschiedene Aggregationsstrategien sowie partielle Gewichtsaktualisierungen integriert. Umfangreiche Experimente belegen die Wirksamkeit und Bedeutung von FedVSSL, da es die zentralisierte SOTA-Leistung für die nachgeschaltete Retrieval-Aufgabe um 6,66 % auf UCF-101 und um 5,13 % auf HMDB-51 übertrifft.