HyperAIHyperAI

Command Palette

Search for a command to run...

Videoanweisungskalibrierung mit synthetischen Daten

Yuanhan Zhang Jinming Wu Wei Li Bo Li Zejun Ma Ziwei Liu Chunyuan Li

Zusammenfassung

Die Entwicklung von großen multimodalen Modellen (LMMs) für Video wurde durch die Schwierigkeit behindert, große Mengen hochwertiger Rohdaten aus dem Internet zu sammeln. Um dieses Problem anzugehen, schlagen wir einen alternativen Ansatz vor, indem wir einen hochwertigen synthetischen Datensatz speziell für die Anweisungsbearbeitung in Videos erstellen, nämlich LLaVA-Video-178K. Dieser Datensatz umfasst Schlüsselaufgaben wie detaillierte Bildunterschriften, offene Frage-Antwort-Tests (QA) und Multiple-Choice-Fragen. Durch das Training auf diesem Datensatz in Kombination mit bereits vorhandenen Daten zur visuellen Anweisungsausrichtung führen wir LLaVA-Video ein, ein neues Video-LMM. Unsere Experimente zeigen, dass LLaVA-Video starke Leistungen bei verschiedenen Video-Benchmarks erzielt, was die Effektivität unseres Datensatzes unterstreicht. Wir planen, den Datensatz, seine Generierungspipeline und die Modellcheckpoints freizugeben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp