HyperAIHyperAI

Command Palette

Search for a command to run...

RTQ: Eine Neubewertung der Video-Sprache-Verständnis basierend auf Bild-Text-Modellen

Xiao Wang Yaoyu Li Tian Gan Zheng Zhang Jingjing Lv Liqiang Nie

Zusammenfassung

Neuere Fortschritte im Bereich der Video-Sprache-Verständnis basieren auf der Grundlage von Bild-Text-Modellen und erzielen vielversprechende Ergebnisse, da Bilder und Videos gemeinsame semantische Kenntnisse aufweisen. Dennoch stellt die Video-Sprache-Verständnis aufgrund der Einbeziehung hochkomplexer semantischer Details einzigartige Herausforderungen dar, die zu Informationsredundanz, zeitlicher Abhängigkeit und Szenenkomplexität führen. Aktuelle Ansätze haben diese Probleme nur teilweise adressiert, und unsere quantitative Analyse zeigt, dass einige dieser Methoden komplementär sind. In Anbetracht dessen schlagen wir einen neuen Ansatz namens RTQ (Refine, Temporal model, and Query) vor, der diese Herausforderungen gleichzeitig bewältigt. Unser Ansatz umfasst die Verfeinerung redundanter Informationen innerhalb der Frame-Daten, die Modellierung zeitlicher Beziehungen zwischen Frames sowie die Abfrage von aufgabe-spezifischen Informationen aus den Videos. Bemerkenswerterweise erzielt unser Modell herausragende Leistung auch ohne Video-Sprache-Vortrainierung, wobei die Ergebnisse mit oder sogar über denen der aktuellen State-of-the-Art-Vortrainingsmethoden liegen. Der Quellcode ist unter https://github.com/SCZwangxiao/RTQ-MM2023 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RTQ: Eine Neubewertung der Video-Sprache-Verständnis basierend auf Bild-Text-Modellen | Paper | HyperAI