HyperAIHyperAI

Command Palette

Search for a command to run...

TimeChat: Ein zeitempfindliches multimodales großes Sprachmodell für die Analyse langer Videos

Shuhuai Ren Linli Yao Shicheng Li Xu Sun Lu Hou

Zusammenfassung

Diese Arbeit stellt TimeChat vor, ein zeitempfindliches multimodales großes Sprachmodell, das speziell für die Verarbeitung langer Videos entwickelt wurde. Unser Modell enthält zwei wesentliche architektonische Beiträge: (1) einen timestamp-bewussten Frame-Encoder, der visuelle Inhalte mit dem Zeitstempel jedes Frames verbindet, und (2) einen gleitenden Video-Q-Former, der eine Video-Token-Sequenz variabler Länge erzeugt, um Videos unterschiedlicher Dauern zu akkommodieren. Zudem bauen wir einen Anweisungstuning-Datensatz auf, der sechs Aufgaben und insgesamt 125.000 Instanzen umfasst, um TimeChats Leistung bei der Anweisungsbefolgung weiter zu verbessern. Experimentelle Ergebnisse in verschiedenen Videoverarbeitungsaufgaben wie dichterisches Captioning, temporale Lokalisierung und Highlight-Erkennung zeigen TimeChats starke zero-shot-temporale Lokalisierungs- und Schließleistungen. Zum Beispiel erreicht es bei YouCook2 einen F1-Score von +9,2 und einen CIDEr von +2,8, bei QVHighlights einen HIT@1 von +5,8 und bei Charades-STA einen R@1 (IoU=0,5) von +27,5 im Vergleich zu den besten bisherigen großen Video-Sprachmodellen. TimeChat hat das Potenzial als vielseitiger Video-Assistent für langfristige Videoverarbeitungsaufgaben und zur Erfüllung realistischer Benutzeranforderungen zu dienen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp