LITA: Sprachgesteuerter zeitlicher Lokalisierungsassistent

Es gab erhebliche Fortschritte bei multimodalen großen Sprachmodellen (LLMs). Kürzliche Arbeiten haben diese Modelle auf Videoeingaben ausgedehnt und damit vielversprechende Fähigkeiten zur Anweisungsführung erreicht. Ein wichtiger Aspekt, der jedoch noch fehlt, ist die zeitliche Lokalisierung. Diese Modelle können "Wann?"-Fragen nicht präzise beantworten. Wir identifizieren drei wesentliche Aspekte, die ihre Fähigkeiten zur zeitlichen Lokalisierung einschränken: (i) Zeitdarstellung, (ii) Architektur und (iii) Daten. Um diese Mängel zu beheben, schlagen wir den Language Instructed Temporal-Localization Assistant (LITA) vor, der folgende Merkmale aufweist: (1) Wir führen Zeit-Token ein, die Zeitspannen relativ zur Videolänge kodieren, um die Zeit in Videos besser darstellen zu können. (2) Wir integrieren SlowFast-Token in die Architektur, um zeitliche Informationen in feiner Auflösung zu erfassen. (3) Wir legen den Schwerpunkt auf zeitliche Lokalisierungsdaten für LITA. Neben der Nutzung bestehender Video-Datensätze mit Zeitstempeln schlagen wir eine neue Aufgabe vor, das Reasoning Temporal Localization (RTL), zusammen mit dem Datensatz ActivityNet-RTL, um dieses Problem zu lernen und zu evaluieren. Die Aufgabe des reasoning-basierten temporalen Positionierens erfordert sowohl das Schließen von Video-LLMs als auch deren zeitliches Positionieren. LITA zeigt starke Leistungen bei dieser anspruchsvollen Aufgabe und verdoppelt fast den temporären mittleren Intersection-over-Union-Wert (mIoU) im Vergleich zu Baseline-Modellen. Darüber hinaus zeigen wir, dass unser Fokus auf die zeitliche Lokalisierung auch die videobasierte Textgenerierung erheblich verbessert im Vergleich zu existierenden Video-LLMs, einschließlich einer relativen Verbesserung von 36 % beim temporale Verständnis. Der Quellcode ist unter folgender URL verfügbar: https://github.com/NVlabs/LITA