Videoanweisungskalibrierung mit synthetischen Daten

Die Entwicklung von großen multimodalen Modellen (LMMs) für Video wurde durch die Schwierigkeit behindert, große Mengen hochwertiger Rohdaten aus dem Internet zu sammeln. Um dieses Problem anzugehen, schlagen wir einen alternativen Ansatz vor, indem wir einen hochwertigen synthetischen Datensatz speziell für die Anweisungsbearbeitung in Videos erstellen, nämlich LLaVA-Video-178K. Dieser Datensatz umfasst Schlüsselaufgaben wie detaillierte Bildunterschriften, offene Frage-Antwort-Tests (QA) und Multiple-Choice-Fragen. Durch das Training auf diesem Datensatz in Kombination mit bereits vorhandenen Daten zur visuellen Anweisungsausrichtung führen wir LLaVA-Video ein, ein neues Video-LMM. Unsere Experimente zeigen, dass LLaVA-Video starke Leistungen bei verschiedenen Video-Benchmarks erzielt, was die Effektivität unseres Datensatzes unterstreicht. Wir planen, den Datensatz, seine Generierungspipeline und die Modellcheckpoints freizugeben.