Multimodale Clusternetze für das selbstüberwachte Lernen aus unbeschrifteten Videos

Das multimodale selbstüberwachte Lernen gewinnt zunehmend an Bedeutung, da es nicht nur das Training großer Netzwerke ohne menschliche Überwachung ermöglicht, sondern auch die Suche und Abruf von Daten über verschiedene Modalitäten hinweg. In diesem Kontext schlägt dieser Artikel ein Framework für selbstüberwachtes Training vor, das einen gemeinsamen multimodalen Einbettungsraum erlernt. Dieser Einbettungsraum teilt Darstellungen zwischen verschiedenen Modalitäten und erzwingt eine Gruppierung semantisch ähnlicher Instanzen. Zu diesem Zweck erweitern wir den Konzept des instanzbasierten kontrastiven Lernens um einen Schritt der multimodalen Clustering im Trainingspipeline, um semantische Ähnlichkeiten zwischen den Modalitäten zu erfassen. Der resultierende Einbettungsraum ermöglicht es, Proben aus allen Modalitäten abzurufen, sogar aus unbekannten Datensätzen und verschiedenen Domains. Um unseren Ansatz zu evaluieren, trainieren wir unser Modell auf dem HowTo100M-Datensatz und testen dessen zero-shot-Abrufleistungsfähigkeiten in zwei anspruchsvollen Domains: Text-zu-Video-Abruf und zeitliche Aktionsskalierung (temporal action localization), wobei wir auf vier verschiedenen Datensätzen Stand-des-Wissens-Ergebnisse zeigen.