HyperAIHyperAI

Command Palette

Search for a command to run...

Offenlegung des Einzelbildverzerrungs für das Lernen von Video- und Sprachinhalten

Jie Lei Tamara L. Berg Mohit Bansal

Zusammenfassung

Das Training eines effektiven Video-und-Sprachmodells erfordert intuitiv mehrere Bilder als Eingaben für das Modell. Es ist jedoch unklar, ob die Verwendung mehrerer Bilder für nachgelagerte Aufgaben vorteilhaft ist und, falls ja, ob der Leistungsanstieg die stark erhöhten Rechen- und Speicherkosten rechtfertigt, die durch die Verwendung zusätzlicher Bilder entstehen. In dieser Arbeit untersuchen wir Einzelbildmodelle für das Lernen von Video-und-Sprachaufgaben. Anhand einer vielfältigen Reihe von Video-und-Sprachaufgaben (einschließlich Text-zu-Video-Retrieval und Video-Fragebeantwortung) zeigen wir überraschende Ergebnisse: Mit groß angelegtem Vor-Training und einer geeigneten Bildverbindungsstrategie zur Inferenz kann ein auf Einzelbildern trainiertes Modell, das zeitliche Informationen nicht berücksichtigt, bessere Leistungen erzielen als bestehende Methoden, die mehrere Bilder für das Training verwenden. Dieses Ergebnis legt nahe, dass in gängigen Video-und-Sprachdatensätzen ein starker „statischer Erscheinungsbias“ besteht. Um eine umfassendere Bewertung von Video-und-Sprachmodellen zu ermöglichen, schlagen wir zwei neue Retrieval-Aufgaben vor, die auf existierenden feinkörnigen Aktionserkennungsdatensätzen basieren und temporales Modellieren fördern. Unser Code ist unter https://github.com/jayleicn/singularity verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp