HyperAIHyperAI

Command Palette

Search for a command to run...

Was zählt bei der Erstellung von Vision-Sprache-Modellen?

Hugo Laurençon Léo Tronchon Matthieu Cord Victor Sanh

Zusammenfassung

Das wachsende Interesse an visuellen Sprachmodellen (VLMs) wird durch Verbesserungen in großen Sprachmodellen und visuellen Transformers getrieben. Trotz der reichen Literatur zu diesem Thema beobachten wir, dass kritische Entscheidungen bezüglich des Designs von VLMs oft nicht gerechtfertigt sind. Wir argumentieren, dass diese unbegründeten Entscheidungen den Fortschritt im Bereich erschweren, indem sie es schwierig machen, welche Wahl die Modellleistung verbessert. Um dieses Problem anzugehen, führen wir umfangreiche Experimente durch, die sich auf vortrainierte Modelle, Architekturauswahl, Daten und Trainingsmethoden konzentrieren. Unsere Zusammenfassung der Ergebnisse umfasst die Entwicklung von Idefics2, einem effizienten grundlegenden VLM mit 8 Milliarden Parametern. Idefics2 erreicht innerhalb seiner Größenkategorie auf verschiedenen multimodalen Benchmarks Spitzenleistungen und ist häufig vergleichbar mit Modellen, die viermal so groß sind. Wir veröffentlichen das Modell (Basisversion, instruierte Version und Chatversion) zusammen mit den für dessen Training erstellten Datensätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Was zählt bei der Erstellung von Vision-Sprache-Modellen? | Paper | HyperAI