Infinity-MM: Skalierung der multimodalen Leistung durch groß angelegte und hochwertige Anweisungsdaten

Vision-Language-Modelle (VLMs) haben kürzlich erhebliche Fortschritte gemacht, jedoch hemmt die begrenzte Größe und Qualität der Open-Source-Anweisungsdaten ihre Leistung im Vergleich zu proprietären Modellen. In dieser Arbeit adressieren wir diese Einschränkung durch die Einführung von Infinity-MM, einem groß angelegten multimodalen Anweisungssatz mit 40 Millionen Beispielen, der durch strenges Qualitätsfiltern und Entduplizierung verbessert wurde. Zudem schlagen wir eine Methode zur Erzeugung synthetischer Anweisungen vor, die auf Open-Source-VLMs basiert und detaillierte Bildannotierungen sowie vielfältige Fragegenerierung verwendet. Mit diesen Daten trainierten wir ein VLM mit 2 Milliarden Parametern, Aquila-VL-2B, das für Modelle ähnlicher Größe Spitzenleistungen (state-of-the-art, SOTA) erzielt. Dies zeigt, dass die Erweiterung von Anweisungsdaten und die Generierung synthetischer Daten die Leistung von Open-Source-Modellen erheblich verbessern können.