HyperAIHyperAI
منذ 2 أشهر

النماذج المتعددة الأوضاع الجenerative هي متعلمات في السياق

Quan Sun; Yufeng Cui; Xiaosong Zhang; Fan Zhang; Qiying Yu; Zhengxiong Luo; Yueze Wang; Yongming Rao; Jingjing Liu; Tiejun Huang; Xinlong Wang
النماذج المتعددة الأوضاع الجenerative هي متعلمات في السياق
الملخص

القدرة البشرية على حل المهام متعددة الوسائط بسهولة في السياق (أي، مع وجود عدد قليل من العروض التوضيحية أو تعليمات بسيطة) هي ما فشلت الأنظمة متعددة الوسائط الحالية في تقليده بشكل كبير. في هذا العمل، نوضح أن قدرات التعلم في السياق للنماذج متعددة الوسائط الكبيرة يمكن تحسينها بشكل كبير من خلال التوسع الفعال. نقدم Emu2، وهو نموذج مولّد متعدد الوسائط يحتوي على 37 مليار معلمة، تم تدريبه على سلاسل وسائطية كبيرة باستخدام هدف ذاتي الانحدار موحد. يظهر Emu2 قدرات قوية للتعلم متعدد الوسائط في السياق، حتى أنه يظهر القدرة على حل المهام التي تتطلب الاستدلال الفوري، مثل الإرشاد البصري وتوليد الأشياء المرتبطة بالواقع (object-grounded generation). يحدد النموذج رقماً قياسياً جديداً في العديد من مهام فهم الوسائط المتعددة في بيئات قليلة الطلقات. عند ضبطه لتنفيذ تعليمات محددة، يصل Emu2 إلى مستوى جديد من التقنية الحالية في مهام صعبة مثل مقاييس الإجابة على الأسئلة لنماذج الوسائط المتعددة الكبيرة والتوليد المفتوح القائم على الموضوع. هذه الإنجازات تدل على أن Emu2 يمكن أن يعمل كنموذج أساسي وواجهة عامة لأغراض متعددة للمهام متعددة الوسائط. يتم توفير الشفرة والنماذج بشكل عام لتسهيل البحث المستقبلي.

النماذج المتعددة الأوضاع الجenerative هي متعلمات في السياق | أحدث الأوراق البحثية | HyperAI