TACo: Token-aware Cascade Contrastive Learning für die Video-Text-Ausrichtung

Kontrastives Lernen wird weit verbreitet eingesetzt, um transformerbasierte visuell-sprachliche Modelle für die Video-Text-Ausrichtung und die multimodale Repräsentationslernung zu trainieren. In diesem Artikel stellen wir einen neuen Algorithmus namens Token-Aware Cascade-Contrastive-Lernen (TACo) vor, der das kontrastive Lernen durch zwei neuartige Techniken verbessert. Erstens wird eine tokenbewusste kontrastive Verlustfunktion verwendet, die die syntaktischen Klassen von Wörtern berücksichtigt. Dies wird durch die Beobachtung motiviert, dass für ein Video-Text-Paar Inhaltswörter wie Substantive und Verben wahrscheinlicher mit visuellen Inhalten im Video korreliert sind als Funktionswörter. Zweitens wird ein kaskadenartiger Sampling-Ansatz angewendet, um eine kleine Menge schwerer Negativbeispiele effizient für die Verlustschätzung in den multimodalen Fusionslagen zu generieren. Um die Wirksamkeit von TACo zu validieren, fine-tunen wir vortrainierte Modelle für eine Reihe von Downstream-Aufgaben, darunter Text-Video-Abfrage (YouCook2, MSR-VTT und ActivityNet), Video-Aktions-Schritt-Lokalisierung (CrossTask) und Video-Aktions-Segmentierung (COIN). Die Ergebnisse zeigen, dass unsere Modelle in verschiedenen experimentellen Einstellungen konsistente Verbesserungen gegenüber früheren Methoden erzielen und neue SOTA-Ergebnisse auf drei öffentlichen Text-Video-Abfrage-Benchmarks – YouCook2, MSR-VTT und ActivityNet – erreichen.