HyperAIHyperAI
vor 2 Monaten

LD-DETR: Loop Decoder DEtection TRansformer für Video-Moment-Retrieval und Highlight-Detektion

Zhao, Pengcheng ; He, Zhixian ; Zhang, Fuwei ; Lin, Shujin ; Zhou, Fan
LD-DETR: Loop Decoder DEtection TRansformer für Video-Moment-Retrieval und Highlight-Detektion
Abstract

Video-Moment-Retrieval und Highlight-Detektion zielen darauf ab, entsprechende Inhalte im Video basierend auf einer Textanfrage zu finden. Bestehende Modelle verwenden in der Regel zunächst kontrastive Lernmethoden, um Video- und Textmerkmale auszurichten, fusionieren und extrahieren dann multimodale Informationen und dekodieren schließlich diese multimodalen Informationen mithilfe eines Transformer-Decoders. Dennoch stellen bestehende Methoden mehrere Herausforderungen dar: (1) Überlappende semantische Informationen zwischen verschiedenen Beispielen im Datensatz behindern die multimodale Ausrichtungsleistung des Modells; (2) Bestehende Modelle sind nicht in der Lage, lokale Video-Merkmale effizient zu extrahieren; (3) Der vom bestehenden Modell verwendete Transformer-Decoder kann multimodale Merkmale nicht angemessen dekodieren. Um die genannten Probleme zu lösen, haben wir das LD-DETR-Modell für die Aufgaben des Video-Moment-Retrievals und der Highlight-Detektion vorgeschlagen. Speziell haben wir zunächst die Ähnlichkeitsmatrix in eine Einheitsmatrix destilliert, um den Einfluss überlappender semantischer Informationen zu reduzieren. Anschließend haben wir eine Methode entwickelt, die es konvolutiven Schichten ermöglicht, multimodale lokale Merkmale effizienter zu extrahieren. Abschließend haben wir die Ausgabe des Transformer-Decoders in sich selbst zurückgegeben, um multimodale Informationen angemessen zu dekodieren. Wir haben LD-DETR an vier öffentlichen Benchmarks evaluiert und umfangreiche Experimente durchgeführt, um die Überlegenheit und Effektivität unseres Ansatzes zu demonstrieren. Unser Modell übertrifft die State-of-the-Art-Modelle auf den Datensätzen QVHighlight, Charades-STA und TACoS. Unser Code ist unter https://github.com/qingchen239/ld-detr verfügbar.

LD-DETR: Loop Decoder DEtection TRansformer für Video-Moment-Retrieval und Highlight-Detektion | Neueste Forschungsarbeiten | HyperAI