vor 8 Monaten

Zusammenfassung

Video-Moment-Retrieval und Highlight-Detektion zielen darauf ab, entsprechende Inhalte im Video basierend auf einer Textanfrage zu finden. Bestehende Modelle verwenden in der Regel zunächst kontrastive Lernmethoden, um Video- und Textmerkmale auszurichten, fusionieren und extrahieren dann multimodale Informationen und dekodieren schließlich diese multimodalen Informationen mithilfe eines Transformer-Decoders. Dennoch stellen bestehende Methoden mehrere Herausforderungen dar: (1) Überlappende semantische Informationen zwischen verschiedenen Beispielen im Datensatz behindern die multimodale Ausrichtungsleistung des Modells; (2) Bestehende Modelle sind nicht in der Lage, lokale Video-Merkmale effizient zu extrahieren; (3) Der vom bestehenden Modell verwendete Transformer-Decoder kann multimodale Merkmale nicht angemessen dekodieren. Um die genannten Probleme zu lösen, haben wir das LD-DETR-Modell für die Aufgaben des Video-Moment-Retrievals und der Highlight-Detektion vorgeschlagen. Speziell haben wir zunächst die Ähnlichkeitsmatrix in eine Einheitsmatrix destilliert, um den Einfluss überlappender semantischer Informationen zu reduzieren. Anschließend haben wir eine Methode entwickelt, die es konvolutiven Schichten ermöglicht, multimodale lokale Merkmale effizienter zu extrahieren. Abschließend haben wir die Ausgabe des Transformer-Decoders in sich selbst zurückgegeben, um multimodale Informationen angemessen zu dekodieren. Wir haben LD-DETR an vier öffentlichen Benchmarks evaluiert und umfangreiche Experimente durchgeführt, um die Überlegenheit und Effektivität unseres Ansatzes zu demonstrieren. Unser Modell übertrifft die State-of-the-Art-Modelle auf den Datensätzen QVHighlight, Charades-STA und TACoS. Unser Code ist unter https://github.com/qingchen239/ld-detr verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Videobearbeitung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin∗ Fan Zhou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Videobearbeitung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin∗ Fan Zhou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LD-DETR: Loop Decoder DEtection TRansformer für Video-Moment-Retrieval und Highlight-Detektion

Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin∗ Fan Zhou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LD-DETR: Loop Decoder DEtection TRansformer für Video-Moment-Retrieval und Highlight-Detektion

Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin∗ Fan Zhou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LD-DETR: Loop Decoder DEtection TRansformer für Video-Moment-Retrieval und Highlight-Detektion

Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin∗ Fan Zhou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters