Command Palette
Search for a command to run...
البحث عن التعلم: توجيه ديناميكي حسب الرموز لنماذج الرؤية واللغة ذات الموارد المنخفضة
Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

الملخص
يتطلب تدريب نماذج الرؤية واللغة على كميات من البيانات تتماشى مع القدرة الإدراكية للدماغ إعادة التفكير في طرق دمج النماذج للمعلومات متعددة الوسائط. ضمن القيود المفروضة على مسار الرؤية في مسابقة BabyLM Challenge 2025، نقترح بنية خفيفة الوزن قائمة على فك التشفير، تتميز بـ (1) آلية توجيه ديناميكية على مستوى الرموز (token-wise dynamic gating) لدمج متكيف بين الإشارات اللغوية والبصرية، (2) تنظيم الميزات والانتباه القنوي لتعظيم فائدة المعلومات البصرية المحدودة، و(3) أهداف تقابلية مساعدة لتعزيز التأصيل البصري. أظهرت النتائج المقدمة على خمسة معايير (BLiMP، BLiMP Supplement، EWoK، Winoground، وVQA) أداءً تنافسيًا أو متفوقًا مقارنةً بالنماذج متعددة الوسائط التقليدية. وبشكل لافت، تُظهر آلية التوجيه الديناميكية أنماطًا قابلة للتفسير دون الحاجة إلى تدريب صريح، حيث تُفضّل الإشارات البصرية في الكلمات المحتوية (content words)، بينما تُعطي الأولوية للإشارات اللغوية في الكلمات الوظيفية (function words). وعلى الرغم من تحديدنا للقيود الناتجة عن شروط المسابقة، مثل العقبة المعلوماتية الناتجة عن التمثيلات البصرية العالمية (global image embeddings) وانعدام الاستقرار أثناء التدريب الناتج عن تقسيم المجموعة، فإن نتائجنا تُثبت أن التوجيه الديناميكي أداة قوية لتعلم متعدد الوسائط بكفاءة، حيث توفر كلاً من القدرة على التفسير والأداء العالي، حتى في ظل القيود الصارمة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.