النماذج المتعددة الأوضاع الجenerative هي متعلمات في السياق

القدرة البشرية على حل المهام متعددة الوسائط بسهولة في السياق (أي، مع وجود عدد قليل من العروض التوضيحية أو تعليمات بسيطة) هي ما فشلت الأنظمة متعددة الوسائط الحالية في تقليده بشكل كبير. في هذا العمل، نوضح أن قدرات التعلم في السياق للنماذج متعددة الوسائط الكبيرة يمكن تحسينها بشكل كبير من خلال التوسع الفعال. نقدم Emu2، وهو نموذج مولّد متعدد الوسائط يحتوي على 37 مليار معلمة، تم تدريبه على سلاسل وسائطية كبيرة باستخدام هدف ذاتي الانحدار موحد. يظهر Emu2 قدرات قوية للتعلم متعدد الوسائط في السياق، حتى أنه يظهر القدرة على حل المهام التي تتطلب الاستدلال الفوري، مثل الإرشاد البصري وتوليد الأشياء المرتبطة بالواقع (object-grounded generation). يحدد النموذج رقماً قياسياً جديداً في العديد من مهام فهم الوسائط المتعددة في بيئات قليلة الطلقات. عند ضبطه لتنفيذ تعليمات محددة، يصل Emu2 إلى مستوى جديد من التقنية الحالية في مهام صعبة مثل مقاييس الإجابة على الأسئلة لنماذج الوسائط المتعددة الكبيرة والتوليد المفتوح القائم على الموضوع. هذه الإنجازات تدل على أن Emu2 يمكن أن يعمل كنموذج أساسي وواجهة عامة لأغراض متعددة للمهام متعددة الوسائط. يتم توفير الشفرة والنماذج بشكل عام لتسهيل البحث المستقبلي.