LLaVA-NeXT-Interleave: Bewältigung von Mehreren Bildern, Video und 3D in großen multimodalen Modellen

Die visuelle Anweisungskalibrierung (Visual Instruction Tuning) hat erhebliche Fortschritte bei der Verbesserung der Fähigkeiten großer multimodaler Modelle (Large Multimodal Models, LMMs) gemacht. Dennoch konzentrieren sich die vorhandenen offenen LMMs weitgehend auf Aufgaben mit einzelnen Bildern, während ihre Anwendungen in Szenarien mit mehreren Bildern weniger erforscht sind. Zudem behandelt frühere LMM-Forschung verschiedene Szenarien getrennt voneinander, was es unmöglich macht, über Szenarien hinweg neue entstehende Fähigkeiten zu verallgemeinern. Um diesen Mangel zu beheben, stellen wir LLaVA-NeXT-Interleave vor, das gleichzeitig mehrere Bilder, mehrere Frames (Video), mehrere Ansichten (3D) und mehrere Bereiche (einzelnes Bild) in LMMs bearbeitet. Um diese Fähigkeiten zu ermöglichen, betrachten wir das verzahnte Datenformat als allgemeines Vorlage und erstellen den M4-Instruct-Datensatz mit 1,1776 Millionen Stichproben, der vier Hauptdomänen mit 14 Aufgaben und 41 Datensätzen abdeckt. Des Weiteren haben wir die LLaVA-Interleave-Bench zusammengestellt, um die Leistung von LMMs bei Mehrbild-Aufgaben umfassend zu bewerten. Durch umfangreiche Experimente erreicht LLaVA-NeXT-Interleave führende Ergebnisse in Mehrbild-, Video- und 3D-Benchmarks, wobei es gleichzeitig die Leistung bei Aufgaben mit einzelnen Bildern beibehält. Darüber hinaus zeigt unser Modell auch einige neu entstandene Fähigkeiten wie zum Beispiel die Übertragbarkeit von Aufgaben zwischen verschiedenen Einstellungen und Modalitäten. Der Quellcode ist unter https://github.com/LLaVA-VL/LLaVA-NeXT verfügbar.