PaLM-E: نموذج لغوي متعدد الوسائط مُدمج

تتفوق النماذج اللغوية الكبيرة في تنفيذ مجموعة واسعة من المهام المعقدة. ومع ذلك، فإن تمكين الاستنتاج العام في العالم الحقيقي، مثل المشكلات المتعلقة بالروبوتات، يطرح تحديًا يُعرف بـ "الربط" (grounding). نقترح نماذج لغوية مُجسّدة (embodied language models) التي تُدمج مباشرةً في النماذج اللغوية الوسائط الحسية المستمرة في العالم الحقيقي، وبالتالي تُرسّخ الربط بين الكلمات والمحسوسات (percepts). تُقدَّم إلى نموذجنا اللغوي المُجسَّد جملًا متعددة الوسائط، تُدمج فيها إدخالات بصرية، وتقديرات حالة مستمرة، وإدخالات نصية مُشفَّرة. نُدرّب هذه التشفيرات بشكل تام (end-to-end)، بالتزامن مع نموذج لغوي كبير مُدرَّب مسبقًا، على مجموعة متنوعة من المهام المُجسَّدة، بما في ذلك التخطيط التسلسلي لمهام التلاعب الروبوتية، والإجابة على الأسئلة البصرية، وكتابة الوصف (captioning). تُظهر تقييماتنا أن نموذج PaLM-E، وهو نموذج متعدد الوسائط مُجسَّد واحد كبير، قادر على التعامل مع مجموعة متنوعة من المهام الاستدلالية المُجسَّدة، من مصادر ملاحظات متنوعة، على أشكال متعددة، كما يُظهر تأثيرًا إيجابيًا للنقل (positive transfer): حيث يستفيد النموذج من التدريب المشترك المتنوع عبر مجالات لغوية وبصرية وصورية-لغوية على نطاق الإنترنت. ونُعتبر النموذج الأكبر لدينا، PaLM-E-562B ذا 562 مليار معلمة، الذي تم تدريبه ليس فقط على مهام الروبوتات، بل أيضًا نموذجًا عامًا في مجال الصور واللغة، ويُظهر أداءً متقدمًا على مجموعة OK-VQA، مع الحفاظ على قدرات لغوية عامة قوية، والتي تزداد تطورًا مع زيادة الحجم.