HyperAIHyperAI

Command Palette

Search for a command to run...

Infinity-MM: Skalierung der multimodalen Leistung durch groß angelegte und hochwertige Anweisungsdaten

Zusammenfassung

Vision-Language-Modelle (VLMs) haben kürzlich erhebliche Fortschritte gemacht, jedoch hemmt die begrenzte Größe und Qualität der Open-Source-Anweisungsdaten ihre Leistung im Vergleich zu proprietären Modellen. In dieser Arbeit adressieren wir diese Einschränkung durch die Einführung von Infinity-MM, einem groß angelegten multimodalen Anweisungssatz mit 40 Millionen Beispielen, der durch strenges Qualitätsfiltern und Entduplizierung verbessert wurde. Zudem schlagen wir eine Methode zur Erzeugung synthetischer Anweisungen vor, die auf Open-Source-VLMs basiert und detaillierte Bildannotierungen sowie vielfältige Fragegenerierung verwendet. Mit diesen Daten trainierten wir ein VLM mit 2 Milliarden Parametern, Aquila-VL-2B, das für Modelle ähnlicher Größe Spitzenleistungen (state-of-the-art, SOTA) erzielt. Dies zeigt, dass die Erweiterung von Anweisungsdaten und die Generierung synthetischer Daten die Leistung von Open-Source-Modellen erheblich verbessern können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp