Tarsier2: Fortschritte bei großen visuellen Sprachmodellen von detaillierter Videobeschreibung zu umfassendem Videoverstehen

Wir stellen Tarsier2 vor, ein neuestands Modell für große visuelle und sprachliche Aufgaben (LVLM), das darauf ausgelegt ist, detaillierte und genaue Videobeschreibungen zu generieren und gleichzeitig über herausragende allgemeine Videoverarbeitungsfähigkeiten verfügt. Tarsier2 erzielt bedeutende Fortschritte durch drei wesentliche Verbesserungen: (1) Das Vortrainingsdatensatz wurde von 11 Millionen auf 40 Millionen Video-Text-Paaren skaliert, was sowohl das Volumen als auch die Vielfalt erhöht; (2) Feingranulare zeitliche Ausrichtung wird während des überwachten Feinabstimmens durchgeführt; (3) Modellbasierte Stichproben werden verwendet, um Präferenzdaten automatisch zu erstellen, und DPO-Training (Data Preference Optimization) wird angewendet, um die Optimierung durchzuführen. Umfangreiche Experimente zeigen, dass Tarsier2-7B in detaillierten Videobeschreibungsaufgaben konstant besser abschneidet als führende proprietäre Modelle wie GPT-4o und Gemini 1.5 Pro. Auf dem DREAM-1K-Benchmark verbessert Tarsier2-7B den F1-Score um 2,8 % im Vergleich zu GPT-4o und um 5,8 % im Vergleich zu Gemini-1.5-Pro. Bei menschlichen direkten Vergleichen zeigt Tarsier2-7B einen Leistungsunterschied von +8,6 % gegenüber GPT-4o und +24,9 % gegenüber Gemini-1.5-Pro. Zudem legt Tarsier2-7B neue Standards auf 15 öffentlichen Benchmarks fest, die Aufgaben wie Video-Fragebeantwortung, Video-Grounding, Halluzinationsprüfung und verkörperte Fragebeantwortung abdecken, wodurch seine Vielseitigkeit als robustes allgemeines visuelles und sprachliches Modell unterstrichen wird.