Z-LaVI: حل اللغات بدون تدريب مدعوم بالتخيل البصري

حققت النماذج اللغوية المدربة مسبقًا على نطاق واسع تقدمًا كبيرًا في حل مهام فهم اللغة التالية. ومع ذلك، فإنها تعاني عادةً من التحيز في الإبلاغ، وهو الظاهرة التي تصف نقص المعرفة الشائعة الصريحة في النص المكتوب، مثل "البرتقالة برتقالية". لتجاوز هذا القيد، قمنا بتطوير نهج جديد يُسمى Z-LaVI، لمنح النماذج اللغوية قدرات تخيل بصري. وبشكل خاص، نستفيد من نوعين مكملين من "التخيل": (i) استرجاع الصور الموجودة عبر البحث والاسترجاع و (ii) إنشاء صور غير موجودة من خلال توليد الصور من النص. عن طريق الاستفادة المشتركة من مدخلات اللغة والتخيل البصري، يتمكن النموذج المرئي-اللغوي المدرب مسبقًا (مثل CLIP) في النهاية من وضع حل بدون تعلم سابق للمهام اللغوية الأصلية. ومن الجدير بالذكر أن تمكين النماذج اللغوية بالتخيل يمكنه استخدام المعرفة البصرية بكفاءة لحل المهام اللغوية العادية. وبالتالي، يحسن Z-LaVI بشكل مستمر أداء الحلول بدون التعلم السابق للنماذج اللغوية الحالية عبر مجموعة متنوعة من المهام اللغوية.