منذ 8 أشهر

الملخص

حققت النماذج اللغوية المدربة مسبقًا على نطاق واسع تقدمًا كبيرًا في حل مهام فهم اللغة التالية. ومع ذلك، فإنها تعاني عادةً من التحيز في الإبلاغ، وهو الظاهرة التي تصف نقص المعرفة الشائعة الصريحة في النص المكتوب، مثل "البرتقالة برتقالية". لتجاوز هذا القيد، قمنا بتطوير نهج جديد يُسمى Z-LaVI، لمنح النماذج اللغوية قدرات تخيل بصري. وبشكل خاص، نستفيد من نوعين مكملين من "التخيل": (i) استرجاع الصور الموجودة عبر البحث والاسترجاع و (ii) إنشاء صور غير موجودة من خلال توليد الصور من النص. عن طريق الاستفادة المشتركة من مدخلات اللغة والتخيل البصري، يتمكن النموذج المرئي-اللغوي المدرب مسبقًا (مثل CLIP) في النهاية من وضع حل بدون تعلم سابق للمهام اللغوية الأصلية. ومن الجدير بالذكر أن تمكين النماذج اللغوية بالتخيل يمكنه استخدام المعرفة البصرية بكفاءة لحل المهام اللغوية العادية. وبالتالي، يحسن Z-LaVI بشكل مستمر أداء الحلول بدون التعلم السابق للنماذج اللغوية الحالية عبر مجموعة متنوعة من المهام اللغوية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار