HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-NeXT-Interleave: Bewältigung von Mehreren Bildern, Video und 3D in großen multimodalen Modellen

Feng Li Renrui Zhang Hao Zhang Yuanhan Zhang Bo Li Wei Li Zejun Ma Chunyuan Li

Zusammenfassung

Die visuelle Anweisungskalibrierung (Visual Instruction Tuning) hat erhebliche Fortschritte bei der Verbesserung der Fähigkeiten großer multimodaler Modelle (Large Multimodal Models, LMMs) gemacht. Dennoch konzentrieren sich die vorhandenen offenen LMMs weitgehend auf Aufgaben mit einzelnen Bildern, während ihre Anwendungen in Szenarien mit mehreren Bildern weniger erforscht sind. Zudem behandelt frühere LMM-Forschung verschiedene Szenarien getrennt voneinander, was es unmöglich macht, über Szenarien hinweg neue entstehende Fähigkeiten zu verallgemeinern. Um diesen Mangel zu beheben, stellen wir LLaVA-NeXT-Interleave vor, das gleichzeitig mehrere Bilder, mehrere Frames (Video), mehrere Ansichten (3D) und mehrere Bereiche (einzelnes Bild) in LMMs bearbeitet. Um diese Fähigkeiten zu ermöglichen, betrachten wir das verzahnte Datenformat als allgemeines Vorlage und erstellen den M4-Instruct-Datensatz mit 1,1776 Millionen Stichproben, der vier Hauptdomänen mit 14 Aufgaben und 41 Datensätzen abdeckt. Des Weiteren haben wir die LLaVA-Interleave-Bench zusammengestellt, um die Leistung von LMMs bei Mehrbild-Aufgaben umfassend zu bewerten. Durch umfangreiche Experimente erreicht LLaVA-NeXT-Interleave führende Ergebnisse in Mehrbild-, Video- und 3D-Benchmarks, wobei es gleichzeitig die Leistung bei Aufgaben mit einzelnen Bildern beibehält. Darüber hinaus zeigt unser Modell auch einige neu entstandene Fähigkeiten wie zum Beispiel die Übertragbarkeit von Aufgaben zwischen verschiedenen Einstellungen und Modalitäten. Der Quellcode ist unter https://github.com/LLaVA-VL/LLaVA-NeXT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp