HyperAIHyperAI
vor 2 Monaten

MobileVOS: Echtzeit-Videosegmentierung Kontrastives Lernen trifft Wissensdistillierung

Roy Miles; Mehmet Kerim Yucel; Bruno Manganelli; Albert Saa-Garriga
MobileVOS: Echtzeit-Videosegmentierung Kontrastives Lernen trifft Wissensdistillierung
Abstract

Dieses Papier behandelt das Problem der semi-überwachten Videoobjektsegmentierung auf ressourcenbeschränkten Geräten, wie zum Beispiel Mobiltelefonen. Wir formulieren dieses Problem als Destillationsaufgabe, bei der wir zeigen, dass kleine räumlich-zeitlich-speicherbezogene Netzwerke mit begrenztem Speicher wettbewerbsfähige Ergebnisse erzielen können, die denen des aktuellen Standes der Technik entsprechen, aber zu einem Bruchteil des Rechenaufwands (32 Millisekunden pro Frame auf einem Samsung Galaxy S22) kommen. Insbesondere stellen wir einen theoretisch fundierten Rahmen bereit, der Wissensdestillation und überwachtes kontrastives Repräsentationslernen vereint. Diese Modelle können von sowohl pixelweise kontrastivem Lernen als auch von der Destillation eines vorab trainierten Lehrers gleichermaßen profitieren. Wir verifizieren diesen Verlustfunktionsterm durch die Erreichung wettbewerbsfähiger J&F-Werte im Vergleich zum aktuellen Stand der Technik auf den Standard-DATENSätzen DAVIS und YouTube, obwohl sie bis zu 5-mal schneller laufen und 32-mal weniger Parameter besitzen.

MobileVOS: Echtzeit-Videosegmentierung Kontrastives Lernen trifft Wissensdistillierung | Neueste Forschungsarbeiten | HyperAI