HyperAIHyperAI

Command Palette

Search for a command to run...

VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Zusammenfassung

Die Erkennung von Video-Highlights und die Moment-Retrieval (HD/MR) sind essentiell für die Videoanalyse. Kürzlich entwickelte Transformer-Modelle zur gemeinsamen Vorhersage ignorieren oft ihre Kreuzaufgaben-Dynamik sowie die Anpassung und Verfeinerung von Videotext-Ausrichtungen. Darüber hinaus verwenden die meisten Modelle in der Regel eingeschränkte, einseitige Aufmerksamkeitsmechanismen, was zu schwach integrierten Repräsentationen und einer suboptimalen Leistung bei der Erfassung der Wechselwirkung zwischen den Video- und Textmodalitäten führt. Obwohl große Sprachmodelle und visuelle Sprachmodelle (LLM/LVLMs) in verschiedenen Bereichen an Bedeutung gewonnen haben, bleibt ihre Anwendung in diesem Bereich relativ unerforscht. Hier stellen wir VideoLights vor, einen neuen HD/MR-Framework, das diese Einschränkungen durch folgende Maßnahmen überwindet: (i) Konvolutions-Projektions- und Merkmalsverfeinerungsmoduln mit einem Ausrichtungsverlust für eine verbesserte Ausrichtung von Video- und Textmerkmalen, (ii) ein bidirektionales Cross-Modale Fusionsnetzwerk für stark gekoppelte abfragebewusste Clip-Repräsentationen, (iii) einen einseitigen gemeinsamen Aufgabenschleifenmechanismus zur Verbesserung beider Aufgaben durch Korrelation. Zudem (iv) führen wir Hart-Positiv-/Negativ-Verluste ein, um adaptive Fehlerstrafungen und verbessertes Lernen zu ermöglichen, und (v) nutzen wir LVLMs wie BLIP-2 für eine erweiterte multimodale Merkmalsintegration und intelligente Vortraining mit synthetischen Daten, die von LVLMs generiert werden. Umfangreiche Experimente auf den Benchmarks QVHighlights, TVSum und Charades-STA zeigen eine Stand-of-the-Art-Leistung. Die Codes und Modelle sind unter https://github.com/dpaul06/VideoLights verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval | Paper | HyperAI