HyperAIHyperAI

Command Palette

Search for a command to run...

Tarsier2: Fortschritte bei großen visuellen Sprachmodellen von detaillierter Videobeschreibung zu umfassendem Videoverstehen

Liping Yuan Jiawei Wang Haomiao Sun Yuchen Zhang Yuan Lin

Zusammenfassung

Wir stellen Tarsier2 vor, ein neuestands Modell für große visuelle und sprachliche Aufgaben (LVLM), das darauf ausgelegt ist, detaillierte und genaue Videobeschreibungen zu generieren und gleichzeitig über herausragende allgemeine Videoverarbeitungsfähigkeiten verfügt. Tarsier2 erzielt bedeutende Fortschritte durch drei wesentliche Verbesserungen: (1) Das Vortrainingsdatensatz wurde von 11 Millionen auf 40 Millionen Video-Text-Paaren skaliert, was sowohl das Volumen als auch die Vielfalt erhöht; (2) Feingranulare zeitliche Ausrichtung wird während des überwachten Feinabstimmens durchgeführt; (3) Modellbasierte Stichproben werden verwendet, um Präferenzdaten automatisch zu erstellen, und DPO-Training (Data Preference Optimization) wird angewendet, um die Optimierung durchzuführen. Umfangreiche Experimente zeigen, dass Tarsier2-7B in detaillierten Videobeschreibungsaufgaben konstant besser abschneidet als führende proprietäre Modelle wie GPT-4o und Gemini 1.5 Pro. Auf dem DREAM-1K-Benchmark verbessert Tarsier2-7B den F1-Score um 2,8 % im Vergleich zu GPT-4o und um 5,8 % im Vergleich zu Gemini-1.5-Pro. Bei menschlichen direkten Vergleichen zeigt Tarsier2-7B einen Leistungsunterschied von +8,6 % gegenüber GPT-4o und +24,9 % gegenüber Gemini-1.5-Pro. Zudem legt Tarsier2-7B neue Standards auf 15 öffentlichen Benchmarks fest, die Aufgaben wie Video-Fragebeantwortung, Video-Grounding, Halluzinationsprüfung und verkörperte Fragebeantwortung abdecken, wodurch seine Vielseitigkeit als robustes allgemeines visuelles und sprachliches Modell unterstrichen wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp