Was zählt bei der Erstellung von Vision-Sprache-Modellen?

Das wachsende Interesse an visuellen Sprachmodellen (VLMs) wird durch Verbesserungen in großen Sprachmodellen und visuellen Transformers getrieben. Trotz der reichen Literatur zu diesem Thema beobachten wir, dass kritische Entscheidungen bezüglich des Designs von VLMs oft nicht gerechtfertigt sind. Wir argumentieren, dass diese unbegründeten Entscheidungen den Fortschritt im Bereich erschweren, indem sie es schwierig machen, welche Wahl die Modellleistung verbessert. Um dieses Problem anzugehen, führen wir umfangreiche Experimente durch, die sich auf vortrainierte Modelle, Architekturauswahl, Daten und Trainingsmethoden konzentrieren. Unsere Zusammenfassung der Ergebnisse umfasst die Entwicklung von Idefics2, einem effizienten grundlegenden VLM mit 8 Milliarden Parametern. Idefics2 erreicht innerhalb seiner Größenkategorie auf verschiedenen multimodalen Benchmarks Spitzenleistungen und ist häufig vergleichbar mit Modellen, die viermal so groß sind. Wir veröffentlichen das Modell (Basisversion, instruierte Version und Chatversion) zusammen mit den für dessen Training erstellten Datensätzen.