Vision-Language-Modelle: Training „von Null"
Die Entwicklung von Vision-Language-Modellen (VLMs) hat sich in den letzten Jahren von einer kompletten Neuschulung hin zu einer effizienteren Feinabstimmung bestehender Modelle gewandelt. Die Idee, ein Modell von Grund auf mit Vision- und Sprachfähigkeiten auszustatten, wird von Forschungslaboren heute als zu kostspielig und ineffizient angesehen. Stattdessen werden vortrainierte, rein textbasierte Sprachmodelle genommen und durch zusätzliche Komponenten erweitert, die es ihnen ermöglichen, Bilder zu verstehen. Dieser Ansatz spart Rechenleistung und Zeit, während er gleichzeitig oft bessere Ergebnisse liefert. Das Standard-Architekturprinzip für moderne VLMs besteht aus drei Hauptkomponenten: dem Bild-Backbone, der Adapter-Schicht und der Sprachschicht. Der Bild-Backbone, oft ein Vision Transformer (ViT), dient dazu, Rohbilder in numerische Vektoren umzuwandeln. Da VLMs meist auf kleineren, bilde-text-paaren Datensätzen trainiert werden, als für den ursprünglichen ViT-Training erforderlich waren, bleibt dieser Backbone während der Feinabstimmung in der Regel eingefroren. Dies verhindert Überanpassung und überträgt die Lernverantwortung auf nachfolgende Module. Die eigentliche Innovation liegt in der Adapter-Schicht, beispielsweise dem Q-Former aus dem BLIP-2-Framework. Da die Ausgaben des ViT rein visuell sind und nichts über Sprache wissen, muss diese Schicht die Bilder so umwandeln, dass sie mit dem Sprachmodell kompatibel sind. Der Q-Former nutzt eine Kombination aus Self-Attention und Cross-Attention. Er projiziert eine begrenzte Anzahl von lernbaren Abfrage-Embeddings auf die visuellen Features des ViT. Durch Cross-Attention lernen diese Abfragen, relevante visuelle Informationen auszuwählen und in eine kompakte Sequenz zu überführen, die semantisch mit Text beschreibungen übereinstimmt. Für das Training des Q-Formers werden verschiedene Verlustfunktionen verwendet. Die Bild-Text-Kontrastverlust (ITC) stellt sicher, dass globale Bild- und Textrepräsentationen im selben Vektorraum liegen. Der Bild-Text-Matching-Verlust (ITM) zwingt das Modell zu einer feineren Analyse, indem es prüft, ob einzelne Bildbereiche mit spezifischen Wörtern übereinstimmen. Alternativ kann ein Generierungsverlust (ITG) genutzt werden, bei dem das Modell den Text basierend auf den Bild-Einbettungen vorhersagen muss. Oft wird eine Mischung dieser Methoden angewendet, um optimale Ergebnisse zu erzielen. Der letzte Schritt ist die Integration in die Sprachschicht. Hier wird das ursprüngliche Sprachmodell, etwa SmolLM, um kleine anpassbare Schichten (LoRA-Adapter) erweitert, anstatt das gesamte Modell neu zu trainieren. Die vom Q-Former erzeugten Bild-Embeddings werden durch eine kleine MLP-Schicht in die Embedding-Größe des Sprachmodells transformiert. Diese werden dann in die Eingabesequenz eingefügt, typischerweise nach der Benutzeranfrage und vor der Generierung der Antwort. Das Modell lernt so, die visuellen Tokens als Kontext zu verstehen, während die ursprünglichen Sprachparameter eingefroren bleiben. Dieser modulare Ansatz ermöglicht es, leistungsstarke multimodale Modelle mit begrenzten Ressourcen auf Standard-Hardware zu trainieren. Die Ergebnisse zeigen, dass bereits nach kurzer Trainingsdauer auf kleinen Datensätzen fähige Systeme entstehen, die Bilder sehen und darüber sprechen können. Die Technologie setzt sich somit zunehmend aus der Kombination spezialisierter Bildnetzwerke, intelligenter Adapter und effizienter Sprachmodelle zusammen, anstatt auf riesige, monolithische Trainingsaufgaben zu setzen.
