Selbstüberwachtes Lernen von Videoähnlichkeiten

Wir stellen S$^2$VS vor, einen Ansatz zum Lernen von Videoähnlichkeiten mit Selbstüberwachung. Die Selbstüberwachte Lernmethode (Self-Supervised Learning, SSL) wird in der Regel verwendet, um tiefe Modelle an einem Proxy-Task zu trainieren, sodass sie nach Feinabstimmung starke Übertragbarkeit auf Zieltasks aufweisen. Im Gegensatz zu früheren Arbeiten wird hier SSL eingesetzt, um Videoähnlichkeitslernen durchzuführen und gleichzeitig mehrere Retrieval- und Detektionsaufgaben ohne Verwendung von etikettierten Daten anzugehen. Dies wird erreicht, indem das Modell durch Instanzdiskriminierung mit taskangepassten Augmentierungen und dem weit verbreiteten InfoNCE-Verlust gelernt wird, wobei ein zusätzlicher Verlust gemeinsam auf Selbstähnlichkeit und schwierige negative Ähnlichkeiten wirkt. Wir evaluieren unsere Methode an Aufgaben, bei denen die Video-Relevanz mit unterschiedlicher Granularität definiert ist, von Video-Kopien bis hin zu Videos, die dasselbe Ereignis oder Vorfall darstellen. Wir lernen ein universelles Modell, das den aktuellen Stand der Technik in allen Aufgaben erreicht und dabei vorgeschlagene Methoden übertrifft, die etikettierte Daten verwenden. Der Code und die vorab trainierten Modelle sind öffentlich verfügbar unter: https://github.com/gkordo/s2vs