HyperAIHyperAI
vor 2 Monaten

Längenbewusster DETR für robuste Momentretrieval

Park, Seojeong ; Choi, Jiho ; Baek, Kyungjune ; Shim, Hyunjung
Längenbewusster DETR für robuste Momentretrieval
Abstract

Video-Moment-Retrieval (MR) zielt darauf ab, Momente innerhalb eines Videos basierend auf einer gegebenen natürlichsprachlichen Abfrage zu lokalisieren. Angesichts der weit verbreiteten Nutzung von Plattformen wie YouTube für die Informationsbeschaffung wächst die Nachfrage nach MR-Techniken erheblich. Kürzlich haben DETR-basierte Modelle bemerkenswerte Fortschritte in der Leistung gemacht, aber immer noch Schwierigkeiten, kurze Momente genauer zu lokalisieren. Durch eine Datenanalyse identifizierten wir eine begrenzte Merkmalsvielfalt in kurzen Momenten, was die Entwicklung von MomentMix motivierte. MomentMix setzt zwei Erweiterungsstrategien ein: ForegroundMix und BackgroundMix, welche jeweils die Merkmalsrepräsentationen des Vorder- und Hintergrunds verbessern. Zudem zeigte unsere Analyse des Vorhersageverzerrungen, dass kurze Momente insbesondere Probleme bei der genauen Vorhersage ihrer Mittelpunktpositionen haben. Um dies zu beheben, schlagen wir einen Längenbewussten Decoder (Length-Aware Decoder) vor, der die Länge durch einen neuen bipartiten Matching-Prozess bedingt. Unsere umfangreichen Studien belegen die Effektivität unseres längenbewussten Ansatzes, insbesondere bei der Lokalisierung kurzer Momente, was zu einer verbesserten Gesamtleistung führt. Unsere Methode übertrifft den aktuellen Stand der Technik in DETR-basierten Methoden auf Benchmark-Datensätzen und erreicht die höchsten Werte für R1 und mAP auf QVHighlights sowie den höchsten Wert für [email protected] auf TACoS und Charades-STA (zum Beispiel eine Steigerung von 2,46 % in [email protected] und 2,57 % im durchschnittlichen mAP für QVHighlights). Der Code ist unter https://github.com/sjpark5800/LA-DETR verfügbar.

Längenbewusster DETR für robuste Momentretrieval | Neueste Forschungsarbeiten | HyperAI