HyperAIHyperAI

Command Palette

Search for a command to run...

Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung

Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

Zusammenfassung

Die Ausbildung von Vision-Sprache-Modellen mit kognitiv plausiblen Datenmengen erfordert eine Neubewertung der Art und Weise, wie Modelle multimodale Informationen integrieren. Unter den Beschränkungen des Vision-Tracks des BabyLM-Challenges 2025 stellen wir eine leichtgewichtige, decoderbasierte Architektur vor, die (1) eine tokenweise dynamische Gating-Mechanismen zur adaptiven Fusion von sprachlichen und visuellen Hinweisen, (2) Feature-Modulation und Kanal-Attention zur Maximierung der Ausnutzung begrenzter visueller Informationen sowie (3) ergänzende kontrastive Ziele zur visuellen Grundlage umfasst. Die Evaluation an fünf Benchmarks (BLiMP, BLiMP Supplement, EWoK, Winoground und VQA) zeigt wettbewerbsfähige oder überlegene Leistung gegenüber multimodalen Baselines. Besonders hervorzuheben ist, dass unser dynamischer Gating-Mechanismus interpretierbare Muster entdeckt, ohne explizite Aufsicht zu benötigen, wobei visuelle Hinweise für Inhaltswörter bevorzugt werden, während sprachliche Hinweise für Funktionswörter stärker gewichtet werden. Obwohl wir Einschränkungen durch die Herausforderungsbedingungen identifiziert haben – beispielsweise die Informationsbottleneck-Situation durch globale Bildembeddings und die Trainingsinstabilität infolge der Datensplits –, zeigen unsere Ergebnisse, dass dynamisches Gating ein leistungsfähiges Werkzeug für effizientes multimodales Lernen darstellt und sowohl Interpretierbarkeit als auch hohe Leistung auch unter strengen Bedingungen ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung | Paper | HyperAI