HyperAIHyperAI
vor 2 Monaten

Hintergrundbewusste Momentenerkennung für die Video-Moment-Retrieval

Jung, Minjoon ; Jang, Youwon ; Choi, Seongho ; Kim, Joochan ; Kim, Jin-Hwa ; Zhang, Byoung-Tak
Hintergrundbewusste Momentenerkennung für die Video-Moment-Retrieval
Abstract

Video-Moment-Retrieval (VMR) identifiziert einen spezifischen Zeitpunkt in einem ungeschnittenen Video für eine gegebene natürlichsprachliche Abfrage. Diese Aufgabe ist anfällig für das schwache Ausrichtungsproblem, das in Video-Datensätzen inhärent ist. Aufgrund der Ambiguität deckt eine Abfrage die relevanten Details des entsprechenden Moments nicht vollständig ab, oder der Moment kann fehlpositionierte und irrelevante Frames enthalten, was potenziell weitere Leistungssteigerungen einschränkt. Um dieses Problem zu bewältigen, schlagen wir einen Hintergrundbewussten Momentenerkennungstransformer (BM-DETR) vor. Unser Modell verwendet einen kontrastiven Ansatz und nutzt sorgfältig die negativen Abfragen, die mit anderen Moments im Video verknüpft sind. Insbesondere lernt unser Modell, den Zielmoment aus der gemeinsamen Wahrscheinlichkeit jedes Frames unter Berücksichtigung der positiven Abfrage und dem Komplement der negativen Abfragen zuvorzusagen. Dies führt zu einer effektiven Nutzung des umliegenden Hintergrunds, verbessert die Momentempfindlichkeit und verstärkt die Gesamtausrichtung in Videos. Ausführliche Experimente auf vier Benchmarks zeigen die Effektivität unserer Methode. Unser Code ist verfügbar unter: \url{https://github.com/minjoong507/BM-DETR}

Hintergrundbewusste Momentenerkennung für die Video-Moment-Retrieval | Neueste Forschungsarbeiten | HyperAI