vor 8 Monaten

Zusammenfassung

Die Erkennung von Video-Highlights und die Moment-Retrieval (HD/MR) sind essentiell für die Videoanalyse. Kürzlich entwickelte Transformer-Modelle zur gemeinsamen Vorhersage ignorieren oft ihre Kreuzaufgaben-Dynamik sowie die Anpassung und Verfeinerung von Videotext-Ausrichtungen. Darüber hinaus verwenden die meisten Modelle in der Regel eingeschränkte, einseitige Aufmerksamkeitsmechanismen, was zu schwach integrierten Repräsentationen und einer suboptimalen Leistung bei der Erfassung der Wechselwirkung zwischen den Video- und Textmodalitäten führt. Obwohl große Sprachmodelle und visuelle Sprachmodelle (LLM/LVLMs) in verschiedenen Bereichen an Bedeutung gewonnen haben, bleibt ihre Anwendung in diesem Bereich relativ unerforscht. Hier stellen wir VideoLights vor, einen neuen HD/MR-Framework, das diese Einschränkungen durch folgende Maßnahmen überwindet: (i) Konvolutions-Projektions- und Merkmalsverfeinerungsmoduln mit einem Ausrichtungsverlust für eine verbesserte Ausrichtung von Video- und Textmerkmalen, (ii) ein bidirektionales Cross-Modale Fusionsnetzwerk für stark gekoppelte abfragebewusste Clip-Repräsentationen, (iii) einen einseitigen gemeinsamen Aufgabenschleifenmechanismus zur Verbesserung beider Aufgaben durch Korrelation. Zudem (iv) führen wir Hart-Positiv-/Negativ-Verluste ein, um adaptive Fehlerstrafungen und verbessertes Lernen zu ermöglichen, und (v) nutzen wir LVLMs wie BLIP-2 für eine erweiterte multimodale Merkmalsintegration und intelligente Vortraining mit synthetischen Daten, die von LVLMs generiert werden. Umfangreiche Experimente auf den Benchmarks QVHighlights, TVSum und Charades-STA zeigen eine Stand-of-the-Art-Leistung. Die Codes und Modelle sind unter https://github.com/dpaul06/VideoLights verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multi-Task-Lernen

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multi-Task-Lernen

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval | Paper | HyperAI

Command Palette

VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VideoLights: Merkmalsverfeinerung und Cross-Task-Ausrichtungs-Transformer für die gemeinsame Erkennung von Video-Highlights und Moment-Retrieval

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters