EgoVLPv2: Egozentrische Video-Sprache-Vortrainierung mit Fusion im Backbone

Video-Sprache-Vortrainierung (VLP) ist aufgrund ihrer Fähigkeit, sich auf eine Vielzahl von Aufgaben im Bereich Vision und Sprache zu verallgemeinern, zunehmend bedeutend geworden. Allerdings nutzen bestehende egozentrische VLP-Frameworks getrennte Video- und Sprach-Encoder und erlernen erst während des Fine-Tunings aufgabenbezogene, intermodale Informationen, was die Entwicklung eines einheitlichen Systems einschränkt. In dieser Arbeit stellen wir die zweite Generation der egozentrischen Video-Sprache-Vortrainierung (EgoVLPv2) vor, eine signifikante Verbesserung gegenüber der vorherigen Generation, indem wir die intermodale Fusion direkt in die Video- und Sprach-Backbones integrieren. EgoVLPv2 erlernt während des Vortrainings starke Video-Text-Repräsentationen und nutzt die intermodalen Aufmerksamkeitsmodule wiederverwendbar, um verschiedene Downstream-Aufgaben flexibel und effizient zu unterstützen, wodurch die Kosten für das Fine-Tuning reduziert werden. Darüber hinaus ist unsere vorgeschlagene Fusion-Strategie im Backbone leichter und rechen-effizienter als das Hinzufügen zusätzlicher, spezifisch auf die Fusion abgestimmter Schichten. Umfangreiche Experimente auf einer Vielzahl von VL-Aufgaben belegen die Wirksamkeit von EgoVLPv2, indem es konsistent führende Ergebnisse gegenüber starken Baselines auf allen Downstream-Aufgaben erzielt. Die Projektseite finden Sie unter https://shramanpramanick.github.io/EgoVLPv2/.