ReVisionLLM: Rekursives Visuells-Sprachliches Modell für die zeitliche Anbindung in Stundenlangen Videos

Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit aus, Informationen aus umfangreichen Texten zu extrahieren. Ihre visuell-sprachlichen Entsprechungen (VLMs) haben jedoch Schwierigkeiten mit Stundenlangen Videos, insbesondere bei der zeitlichen Lokalisierung. Genauer gesagt sind diese VLMs durch Bilderrahmenbegrenzungen eingeschränkt und verlieren oft wesentliche zeitliche Details, die für eine genaue Ereignislokalisierung in langen Videoinhalten benötigt werden. Wir schlagen ReVisionLLM vor, ein rekursives visuell-sprachliches Modell, das entwickelt wurde, um Ereignisse in Stundenlangen Videos zu lokalisieren. Inspiriert von menschlichen Suchstrategien richtet unser Modell zunächst den Fokus auf breitere Segmente von Interesse und überarbeitet diesen schrittweise, um die exakten zeitlichen Grenzen zu identifizieren. Unser Modell kann nahtlos Videos unterschiedlichster Längen, von Minuten bis hin zu Stunden, verarbeiten. Zudem führen wir eine hierarchische Trainingsstrategie ein, die mit kurzen Clips beginnt, um einzelne Ereignisse zu erfassen, und sich dann allmählich auf längere Videos erweitert. Nach unserem Wissen ist ReVisionLLM das erste VLM, das fähig ist, die zeitliche Lokalisierung in Stundenlangen Videos durchzuführen und übertreffen dabei vorherige Standesmethoden in mehreren Datensätzen deutlich (+2,6% [email protected] auf MAD). Der Code ist unter https://github.com/Tanveer81/ReVisionLLM verfügbar.