HyperAIHyperAI

Command Palette

Search for a command to run...

EgoVLPv2: Egozentrische Video-Sprache-Vortrainierung mit Fusion im Backbone

Shraman Pramanick Yale Song Sayan Nag Kevin Qinghong Lin Hardik Shah Mike Zheng Shou Rama Chellappa Pengchuan Zhang

Zusammenfassung

Video-Sprache-Vortrainierung (VLP) ist aufgrund ihrer Fähigkeit, sich auf eine Vielzahl von Aufgaben im Bereich Vision und Sprache zu verallgemeinern, zunehmend bedeutend geworden. Allerdings nutzen bestehende egozentrische VLP-Frameworks getrennte Video- und Sprach-Encoder und erlernen erst während des Fine-Tunings aufgabenbezogene, intermodale Informationen, was die Entwicklung eines einheitlichen Systems einschränkt. In dieser Arbeit stellen wir die zweite Generation der egozentrischen Video-Sprache-Vortrainierung (EgoVLPv2) vor, eine signifikante Verbesserung gegenüber der vorherigen Generation, indem wir die intermodale Fusion direkt in die Video- und Sprach-Backbones integrieren. EgoVLPv2 erlernt während des Vortrainings starke Video-Text-Repräsentationen und nutzt die intermodalen Aufmerksamkeitsmodule wiederverwendbar, um verschiedene Downstream-Aufgaben flexibel und effizient zu unterstützen, wodurch die Kosten für das Fine-Tuning reduziert werden. Darüber hinaus ist unsere vorgeschlagene Fusion-Strategie im Backbone leichter und rechen-effizienter als das Hinzufügen zusätzlicher, spezifisch auf die Fusion abgestimmter Schichten. Umfangreiche Experimente auf einer Vielzahl von VL-Aufgaben belegen die Wirksamkeit von EgoVLPv2, indem es konsistent führende Ergebnisse gegenüber starken Baselines auf allen Downstream-Aufgaben erzielt. Die Projektseite finden Sie unter https://shramanpramanick.github.io/EgoVLPv2/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp