HyperAIHyperAI
vor 2 Monaten

VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval

Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman
VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval
Abstract

Die Erkennung von Video-Highlights und die Moment-Retrieval (HD/MR) sind essentiell für die Videoanalyse. Kürzlich entwickelte Transformer-Modelle zur gemeinsamen Vorhersage ignorieren oft ihre Kreuzaufgaben-Dynamik sowie die Anpassung und Verfeinerung von Videotext-Ausrichtungen. Darüber hinaus verwenden die meisten Modelle in der Regel eingeschränkte, einseitige Aufmerksamkeitsmechanismen, was zu schwach integrierten Repräsentationen und einer suboptimalen Leistung bei der Erfassung der Wechselwirkung zwischen den Video- und Textmodalitäten führt. Obwohl große Sprachmodelle und visuelle Sprachmodelle (LLM/LVLMs) in verschiedenen Bereichen an Bedeutung gewonnen haben, bleibt ihre Anwendung in diesem Bereich relativ unerforscht. Hier stellen wir VideoLights vor, einen neuen HD/MR-Framework, das diese Einschränkungen durch folgende Maßnahmen überwindet: (i) Konvolutions-Projektions- und Merkmalsverfeinerungsmoduln mit einem Ausrichtungsverlust für eine verbesserte Ausrichtung von Video- und Textmerkmalen, (ii) ein bidirektionales Cross-Modale Fusionsnetzwerk für stark gekoppelte abfragebewusste Clip-Repräsentationen, (iii) einen einseitigen gemeinsamen Aufgabenschleifenmechanismus zur Verbesserung beider Aufgaben durch Korrelation. Zudem (iv) führen wir Hart-Positiv-/Negativ-Verluste ein, um adaptive Fehlerstrafungen und verbessertes Lernen zu ermöglichen, und (v) nutzen wir LVLMs wie BLIP-2 für eine erweiterte multimodale Merkmalsintegration und intelligente Vortraining mit synthetischen Daten, die von LVLMs generiert werden. Umfangreiche Experimente auf den Benchmarks QVHighlights, TVSum und Charades-STA zeigen eine Stand-of-the-Art-Leistung. Die Codes und Modelle sind unter https://github.com/dpaul06/VideoLights verfügbar.

VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval | Neueste Forschungsarbeiten | HyperAI