vor 2 Monaten

RGNet: Ein einheitliches Netzwerk für die Suche und Verortung von Clips in langen Videos

Hannan, Tanveer ; Islam, Md Mohaiminul ; Seidl, Thomas ; Bertasius, Gedas

Abstract

Die Lokalisierung spezifischer Momente innerhalb langer Videos (20-120 Minuten) stellt eine erhebliche Herausforderung dar, vergleichbar mit dem Suchen einer Nadel im Heuhaufen. Die Anpassung bestehender Methoden zur Verortung in kurzen Videos (5-30 Sekunden) an dieses Problem führt zu mangelhafter Leistung. Da die meisten realen Videos, wie etwa solche auf YouTube und in AR/VR, lang sind, ist die Bewältigung dieser Herausforderung von entscheidender Bedeutung. Bestehende Methoden arbeiten in der Regel in zwei Phasen: Clip-Retrieval und Verortung. Dieser getrennte Prozess begrenzt das feingranulare Ereignisverständnis des Retrieval-Moduls, was für die Detektion spezifischer Momente entscheidend ist. Wir schlagen RGNet vor, ein Netzwerk, das Clip-Retrieval und Verortung tiefgreifend in einem einzigen Modell integriert und fähig ist, lange Videos auf mehreren Granularitätsstufen zu verarbeiten, z.B. Clips und Frames. Sein Kernbestandteil ist ein neuartiger Transformer-Encoder, der RG-Encoder genannt wird, der die beiden Phasen durch gemeinsame Merkmale und gegenseitige Optimierung vereint. Der Encoder verwendet einen dünn besetzten Aufmerksamkeitsmechanismus sowie einen Aufmerksamkeitsverlust, um beide Granularitäten gleichzeitig zu modellieren. Darüber hinaus führen wir eine kontrastive Clip-Auswahlmethode ein, um während des Trainings den Paradigma langer Videos möglichst genau nachzuahmen. RGNet übertrifft bisherige Methoden und zeigt Spitzenleistungen auf LVTG-Datensätzen wie MAD und Ego4D.