منذ 17 أيام

PaLM-E: نموذج لغوي متعدد الوسائط مُدمج

Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence

عرض تفاصيل الورقة البحثية

الملخص

تتفوق النماذج اللغوية الكبيرة في تنفيذ مجموعة واسعة من المهام المعقدة. ومع ذلك، فإن تمكين الاستنتاج العام في العالم الحقيقي، مثل المشكلات المتعلقة بالروبوتات، يطرح تحديًا يُعرف بـ "الربط" (grounding). نقترح نماذج لغوية مُجسّدة (embodied language models) التي تُدمج مباشرةً في النماذج اللغوية الوسائط الحسية المستمرة في العالم الحقيقي، وبالتالي تُرسّخ الربط بين الكلمات والمحسوسات (percepts). تُقدَّم إلى نموذجنا اللغوي المُجسَّد جملًا متعددة الوسائط، تُدمج فيها إدخالات بصرية، وتقديرات حالة مستمرة، وإدخالات نصية مُشفَّرة. نُدرّب هذه التشفيرات بشكل تام (end-to-end)، بالتزامن مع نموذج لغوي كبير مُدرَّب مسبقًا، على مجموعة متنوعة من المهام المُجسَّدة، بما في ذلك التخطيط التسلسلي لمهام التلاعب الروبوتية، والإجابة على الأسئلة البصرية، وكتابة الوصف (captioning). تُظهر تقييماتنا أن نموذج PaLM-E، وهو نموذج متعدد الوسائط مُجسَّد واحد كبير، قادر على التعامل مع مجموعة متنوعة من المهام الاستدلالية المُجسَّدة، من مصادر ملاحظات متنوعة، على أشكال متعددة، كما يُظهر تأثيرًا إيجابيًا للنقل (positive transfer): حيث يستفيد النموذج من التدريب المشترك المتنوع عبر مجالات لغوية وبصرية وصورية-لغوية على نطاق الإنترنت. ونُعتبر النموذج الأكبر لدينا، PaLM-E-562B ذا 562 مليار معلمة، الذي تم تدريبه ليس فقط على مهام الروبوتات، بل أيضًا نموذجًا عامًا في مجال الصور واللغة، ويُظهر أداءً متقدمًا على مجموعة OK-VQA، مع الحفاظ على قدرات لغوية عامة قوية، والتي تزداد تطورًا مع زيادة الحجم.