vor 2 Monaten

TimeChat: Ein zeitempfindliches multimodales großes Sprachmodell für die Analyse langer Videos

Shuhuai Ren; Linli Yao; Shicheng Li; Xu Sun; Lu Hou

Abstract

Diese Arbeit stellt TimeChat vor, ein zeitempfindliches multimodales großes Sprachmodell, das speziell für die Verarbeitung langer Videos entwickelt wurde. Unser Modell enthält zwei wesentliche architektonische Beiträge: (1) einen timestamp-bewussten Frame-Encoder, der visuelle Inhalte mit dem Zeitstempel jedes Frames verbindet, und (2) einen gleitenden Video-Q-Former, der eine Video-Token-Sequenz variabler Länge erzeugt, um Videos unterschiedlicher Dauern zu akkommodieren. Zudem bauen wir einen Anweisungstuning-Datensatz auf, der sechs Aufgaben und insgesamt 125.000 Instanzen umfasst, um TimeChats Leistung bei der Anweisungsbefolgung weiter zu verbessern. Experimentelle Ergebnisse in verschiedenen Videoverarbeitungsaufgaben wie dichterisches Captioning, temporale Lokalisierung und Highlight-Erkennung zeigen TimeChats starke zero-shot-temporale Lokalisierungs- und Schließleistungen. Zum Beispiel erreicht es bei YouCook2 einen F1-Score von +9,2 und einen CIDEr von +2,8, bei QVHighlights einen HIT@1 von +5,8 und bei Charades-STA einen R@1 (IoU=0,5) von +27,5 im Vergleich zu den besten bisherigen großen Video-Sprachmodellen. TimeChat hat das Potenzial als vielseitiger Video-Assistent für langfristige Videoverarbeitungsaufgaben und zur Erfüllung realistischer Benutzeranforderungen zu dienen.