HyperAIHyperAI

Command Palette

Search for a command to run...

RGNet: Ein einheitliches Netzwerk für die Suche und Verortung von Clips in langen Videos

Hannan Tanveer ; Islam Md Mohaiminul ; Seidl Thomas ; Bertasius Gedas

Zusammenfassung

Die Lokalisierung spezifischer Momente innerhalb langer Videos (20-120 Minuten) stellt eine erhebliche Herausforderung dar, vergleichbar mit dem Suchen einer Nadel im Heuhaufen. Die Anpassung bestehender Methoden zur Verortung in kurzen Videos (5-30 Sekunden) an dieses Problem führt zu mangelhafter Leistung. Da die meisten realen Videos, wie etwa solche auf YouTube und in AR/VR, lang sind, ist die Bewältigung dieser Herausforderung von entscheidender Bedeutung. Bestehende Methoden arbeiten in der Regel in zwei Phasen: Clip-Retrieval und Verortung. Dieser getrennte Prozess begrenzt das feingranulare Ereignisverständnis des Retrieval-Moduls, was für die Detektion spezifischer Momente entscheidend ist. Wir schlagen RGNet vor, ein Netzwerk, das Clip-Retrieval und Verortung tiefgreifend in einem einzigen Modell integriert und fähig ist, lange Videos auf mehreren Granularitätsstufen zu verarbeiten, z.B. Clips und Frames. Sein Kernbestandteil ist ein neuartiger Transformer-Encoder, der RG-Encoder genannt wird, der die beiden Phasen durch gemeinsame Merkmale und gegenseitige Optimierung vereint. Der Encoder verwendet einen dünn besetzten Aufmerksamkeitsmechanismus sowie einen Aufmerksamkeitsverlust, um beide Granularitäten gleichzeitig zu modellieren. Darüber hinaus führen wir eine kontrastive Clip-Auswahlmethode ein, um während des Trainings den Paradigma langer Videos möglichst genau nachzuahmen. RGNet übertrifft bisherige Methoden und zeigt Spitzenleistungen auf LVTG-Datensätzen wie MAD und Ego4D.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp