HyperAIHyperAI

Command Palette

Search for a command to run...

ReVisionLLM: Rekursives Visuells-Sprachliches Modell für die zeitliche Anbindung in Stundenlangen Videos

Tanveer Hannan Md Mohaiminul Islam Jindong Gu Thomas Seidl Gedas Bertasius

Zusammenfassung

Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit aus, Informationen aus umfangreichen Texten zu extrahieren. Ihre visuell-sprachlichen Entsprechungen (VLMs) haben jedoch Schwierigkeiten mit Stundenlangen Videos, insbesondere bei der zeitlichen Lokalisierung. Genauer gesagt sind diese VLMs durch Bilderrahmenbegrenzungen eingeschränkt und verlieren oft wesentliche zeitliche Details, die für eine genaue Ereignislokalisierung in langen Videoinhalten benötigt werden. Wir schlagen ReVisionLLM vor, ein rekursives visuell-sprachliches Modell, das entwickelt wurde, um Ereignisse in Stundenlangen Videos zu lokalisieren. Inspiriert von menschlichen Suchstrategien richtet unser Modell zunächst den Fokus auf breitere Segmente von Interesse und überarbeitet diesen schrittweise, um die exakten zeitlichen Grenzen zu identifizieren. Unser Modell kann nahtlos Videos unterschiedlichster Längen, von Minuten bis hin zu Stunden, verarbeiten. Zudem führen wir eine hierarchische Trainingsstrategie ein, die mit kurzen Clips beginnt, um einzelne Ereignisse zu erfassen, und sich dann allmählich auf längere Videos erweitert. Nach unserem Wissen ist ReVisionLLM das erste VLM, das fähig ist, die zeitliche Lokalisierung in Stundenlangen Videos durchzuführen und übertreffen dabei vorherige Standesmethoden in mehreren Datensätzen deutlich (+2,6% [email protected] auf MAD). Der Code ist unter https://github.com/Tanveer81/ReVisionLLM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp