vor einem Monat

Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung

Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

Abstract

Die Ausbildung von Vision-Sprache-Modellen mit kognitiv plausiblen Datenmengen erfordert eine Neubewertung der Art und Weise, wie Modelle multimodale Informationen integrieren. Unter den Beschränkungen des Vision-Tracks des BabyLM-Challenges 2025 stellen wir eine leichtgewichtige, decoderbasierte Architektur vor, die (1) eine tokenweise dynamische Gating-Mechanismen zur adaptiven Fusion von sprachlichen und visuellen Hinweisen, (2) Feature-Modulation und Kanal-Attention zur Maximierung der Ausnutzung begrenzter visueller Informationen sowie (3) ergänzende kontrastive Ziele zur visuellen Grundlage umfasst. Die Evaluation an fünf Benchmarks (BLiMP, BLiMP Supplement, EWoK, Winoground und VQA) zeigt wettbewerbsfähige oder überlegene Leistung gegenüber multimodalen Baselines. Besonders hervorzuheben ist, dass unser dynamischer Gating-Mechanismus interpretierbare Muster entdeckt, ohne explizite Aufsicht zu benötigen, wobei visuelle Hinweise für Inhaltswörter bevorzugt werden, während sprachliche Hinweise für Funktionswörter stärker gewichtet werden. Obwohl wir Einschränkungen durch die Herausforderungsbedingungen identifiziert haben – beispielsweise die Informationsbottleneck-Situation durch globale Bildembeddings und die Trainingsinstabilität infolge der Datensplits –, zeigen unsere Ergebnisse, dass dynamisches Gating ein leistungsfähiges Werkzeug für effizientes multimodales Lernen darstellt und sowohl Interpretierbarkeit als auch hohe Leistung auch unter strengen Bedingungen ermöglicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung

Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

Abstract

KI mit KI entwickeln

Hyper Newsletters