Command Palette
Search for a command to run...
Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung
Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

Abstract
Die Ausbildung von Vision-Sprache-Modellen mit kognitiv plausiblen Datenmengen erfordert eine Neubewertung der Art und Weise, wie Modelle multimodale Informationen integrieren. Unter den Beschränkungen des Vision-Tracks des BabyLM-Challenges 2025 stellen wir eine leichtgewichtige, decoderbasierte Architektur vor, die (1) eine tokenweise dynamische Gating-Mechanismen zur adaptiven Fusion von sprachlichen und visuellen Hinweisen, (2) Feature-Modulation und Kanal-Attention zur Maximierung der Ausnutzung begrenzter visueller Informationen sowie (3) ergänzende kontrastive Ziele zur visuellen Grundlage umfasst. Die Evaluation an fünf Benchmarks (BLiMP, BLiMP Supplement, EWoK, Winoground und VQA) zeigt wettbewerbsfähige oder überlegene Leistung gegenüber multimodalen Baselines. Besonders hervorzuheben ist, dass unser dynamischer Gating-Mechanismus interpretierbare Muster entdeckt, ohne explizite Aufsicht zu benötigen, wobei visuelle Hinweise für Inhaltswörter bevorzugt werden, während sprachliche Hinweise für Funktionswörter stärker gewichtet werden. Obwohl wir Einschränkungen durch die Herausforderungsbedingungen identifiziert haben – beispielsweise die Informationsbottleneck-Situation durch globale Bildembeddings und die Trainingsinstabilität infolge der Datensplits –, zeigen unsere Ergebnisse, dass dynamisches Gating ein leistungsfähiges Werkzeug für effizientes multimodales Lernen darstellt und sowohl Interpretierbarkeit als auch hohe Leistung auch unter strengen Bedingungen ermöglicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.