HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

البحث عن التعلم: توجيه ديناميكي حسب الرموز لنماذج الرؤية واللغة ذات الموارد المنخفضة

Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

البحث عن التعلم: توجيه ديناميكي حسب الرموز لنماذج الرؤية واللغة ذات الموارد المنخفضة

الملخص

يتطلب تدريب نماذج الرؤية واللغة على كميات من البيانات تتماشى مع القدرة الإدراكية للدماغ إعادة التفكير في طرق دمج النماذج للمعلومات متعددة الوسائط. ضمن القيود المفروضة على مسار الرؤية في مسابقة BabyLM Challenge 2025، نقترح بنية خفيفة الوزن قائمة على فك التشفير، تتميز بـ (1) آلية توجيه ديناميكية على مستوى الرموز (token-wise dynamic gating) لدمج متكيف بين الإشارات اللغوية والبصرية، (2) تنظيم الميزات والانتباه القنوي لتعظيم فائدة المعلومات البصرية المحدودة، و(3) أهداف تقابلية مساعدة لتعزيز التأصيل البصري. أظهرت النتائج المقدمة على خمسة معايير (BLiMP، BLiMP Supplement، EWoK، Winoground، وVQA) أداءً تنافسيًا أو متفوقًا مقارنةً بالنماذج متعددة الوسائط التقليدية. وبشكل لافت، تُظهر آلية التوجيه الديناميكية أنماطًا قابلة للتفسير دون الحاجة إلى تدريب صريح، حيث تُفضّل الإشارات البصرية في الكلمات المحتوية (content words)، بينما تُعطي الأولوية للإشارات اللغوية في الكلمات الوظيفية (function words). وعلى الرغم من تحديدنا للقيود الناتجة عن شروط المسابقة، مثل العقبة المعلوماتية الناتجة عن التمثيلات البصرية العالمية (global image embeddings) وانعدام الاستقرار أثناء التدريب الناتج عن تقسيم المجموعة، فإن نتائجنا تُثبت أن التوجيه الديناميكي أداة قوية لتعلم متعدد الوسائط بكفاءة، حيث توفر كلاً من القدرة على التفسير والأداء العالي، حتى في ظل القيود الصارمة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp