HyperAIHyperAI
vor 2 Monaten

Tarsier: Rezepte für das Training und die Bewertung großer Videobeschreibungsmodelle

Jiawei Wang; Liping Yuan; Yuchen Zhang; Haomiao Sun
Tarsier: Rezepte für das Training und die Bewertung großer Videobeschreibungsmodelle
Abstract

Die Erstellung detaillierter Videobeschreibungen stellt eine grundlegende Herausforderung im Bereich der Videoverstehenskünstlichen Intelligenz dar. In dieser Arbeit stellen wir Tarsier vor, eine Familie groß angelegter Video-Sprachmodelle, die entwickelt wurden, um hochwertige Videobeschreibungen zu generieren. Tarsier verwendet CLIP-ViT, um Frames einzeln zu kodieren, und ein LLM (Large Language Model), um zeitliche Beziehungen zu modellieren. Trotz seiner einfachen Architektur zeigen wir, dass durch einen sorgfältig gestalteten zweistufigen Trainingsprozess die Tarsier-Modelle erheblich stärkere Fähigkeiten zur Videobeschreibung aufweisen als alle bisher bekannten Open-Source-Modelle. Sie erzielen dabei einen Vorteil von +51,4 % in der direkten menschlichen Bewertung gegenüber dem besten Modell. Zudem sind sie den neuesten proprietären Modellen vergleichbar und weisen einen Vorteil von +12,3 % gegenüber GPT-4V sowie einen Nachteil von -6,7 % gegenüber Gemini 1.5 Pro auf. Bei der Weiterentwicklung zu Tarsier2 durch den Einsatz von SigLIP und Qwen2-7B verbessert sich das Modell erheblich und erreicht nun einen Vorteil von +4,8 % gegenüber GPT-4o. Neben der Videobeschreibung zeigt sich Tarsier als vielseitiges Allroundmodell, das neue Spitzenwerte in neun öffentlichen Benchmarks erzielt, darunter multiple-choice-VQA (Visual Question Answering), offene VQA und zero-shot-Videokaptionierung. Unser zweiter Beitrag besteht in der Einführung eines neuen Benchmarks – DREAM-1K (https://tarsier-vlm.github.io/) – zur Bewertung von Videobeschreibungsmodellen. Dieser Benchmark umfasst ein neuartiges anspruchsvolles Datenset mit Videos aus verschiedenen Quellen und unterschiedlicher Komplexität sowie eine spezielle automatische Methode zur Bewertung der Qualität detaillierter Videobeschreibungen. Wir stellen unsere Modelle und den Evaluationsbenchmark öffentlich zur Verfügung unter https://github.com/bytedance/tarsier.

Tarsier: Rezepte für das Training und die Bewertung großer Videobeschreibungsmodelle | Neueste Forschungsarbeiten | HyperAI