PaLI: نموذج متعدد اللغات مشترك للصورة واللغة

التوسع الفعال وواجهة المهام المرنة تمكن النماذج اللغوية الكبيرة من التفوق في العديد من المهام. نقدم هنا نموذج PaLI (نموذج اللغة والصورة Pathways Language and Image)، وهو نموذج يوسع هذا النهج ليشمل النمذجة المشتركة للغة والرؤية. يقوم PaLI بإنشاء النص بناءً على المدخلات البصرية والنصية، ويقوم بهذه الواجهة بتنفيذ العديد من المهام البصرية واللغوية والمودالية المتعددة، وبالعديد من اللغات. لتدريب PaLI، نستفيد من النماذج اللغوية الكبيرة مسبقة التدريب والمُشفرة-المُفكِّرة (Encoder-Decoder) وأجهزة تحويل الرؤية (Vision Transformers - ViTs). هذا يتيح لنا الاستفادة من قدراتهم الحالية واستغلال التكلفة العالية لتدريبها. وقد اكتشفنا أن التوسع المشترك للمكونات البصرية واللغوية مهم للغاية. نظرًا لأن أجهزة تحويل الرؤية الموجودة حاليًا أصغر بكثير من نظيراتها اللغوية، فقد قمنا بتدريب جهاز تحويل رؤية كبير يحتوي على 4 مليارات معلمة (ViT-e) لتقييم الفوائد التي يمكن الحصول عليها من نماذج رؤية ذات سعة أكبر. لتدريب PaLI، قمنا بإنشاء خليط متعدد اللغات كبير من مهام التدريب الأولي، استنادًا إلى مجموعة تدريب جديدة تحتوي على 10 مليار صورة ونصوص بأكثر من 100 لغة. حقق PaLI أفضل الأداء في العديد من المهام البصرية واللغوية (مثل إضافة التعليقات الصوتية، والإجابة على الأسئلة البصرية، وفهم النصوص في المشاهد)، مع الحفاظ على تصميم بسيط ومُجزَأ وقابل للتوسع.