HyperAIHyperAI

Command Palette

Search for a command to run...

Lokalisierung von Momenten in langen Videos durch multimodale Anleitung

Wayner Barrios Mattia Soldan Alberto Mario Ceballos-Arroyo Fabian Caba Heilbron Bernard Ghanem

Zusammenfassung

Die kürzliche Einführung der umfangreichen, langen Formen der MAD- und Ego4D-Datensätze hat es Forschern ermöglicht, die Leistung aktueller Stand-of-the-Art-Methoden für Video-Grounding in einem langfristigen Setup zu untersuchen, wobei interessante Erkenntnisse gewonnen wurden: Die aktuellen Grounding-Methoden scheitern an dieser anspruchsvollen Aufgabe und dem Setup aufgrund ihrer Unfähigkeit, lange Videosequenzen zu verarbeiten. In diesem Paper schlagen wir eine Methode vor, um die Leistung des natürlichsprachlichen Groundings in langen Videos durch Identifizierung und Entfernung nicht beschreibbarer Fenster zu verbessern. Wir entwerfen ein geführtes Grounding-Framework, das aus einem Guidance-Modell und einem Basis-Grounding-Modell besteht. Das Guidance-Modell betont beschreibbare Fenster, während das Basis-Grounding-Modell kurze zeitliche Fenster analysiert, um festzustellen, welche Segmente einer gegebenen Sprachanfrage genau entsprechen. Wir präsentieren zwei Designs für das Guidance-Modell: Query-Agnostisch und Query-abhängig, die Effizienz und Genauigkeit ausbalancieren. Experimente zeigen, dass unser vorgeschlagener Ansatz in MAD um 4,1 % und in Ego4D (NLQ) um 4,52 % besser abschneidet als die besten bisher bekannten Modelle. Der Code, die Daten und die Audiodaten von MAD, die notwendig sind, um unsere Experimente nachzubilden, sind unter folgender URL verfügbar:https://github.com/waybarrios/guidance-based-video-grounding.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp