الملخص

بينما يُعد توقع الرمز التالي (next-token prediction) مسارًا واعدًا نحو الذكاء الاصطناعي العام، إلا أنه واجه صعوبات في التفوق في المهام متعددة الوسائط، التي تظل تحت سيطرة نماذج الانتشار (مثل Stable Diffusion) والمناهج المركبة (مثل CLIP المدمج مع النماذج اللغوية الكبيرة). في هذا البحث، نقدّم Emu3، وهو مجموعة جديدة من النماذج متعددة الوسائط من أحدث الأجيال، تم تدريبها بالكامل باستخدام توقع الرمز التالي فقط. من خلال تجزئة الصور والنصوص والفيديوهات إلى فضاء منفصل (discrete space)، نُدرّب نموذجًا واحدًا من نوع المُحَوِّل (transformer) من الصفر على مزيج من التسلسلات متعددة الوسائط. تُظهر Emu3 تفوقًا على العديد من النماذج المحددة المهام المُتَّسَمَة بجودة عالية في مهام التوليد والتمييز، متفوقةً على نماذج رائدة مثل SDXL وLLaVA-1.6، مع التخلي عن الحاجة إلى هياكل انتشارية أو مركبة. كما تُCapabilities Emu3 توليد فيديو عالي الولاء من خلال توقع الرمز التالي في تسلسل فيديو. نبسط التصاميم المعقدة للنماذج متعددة الوسائط من خلال التركيز على عنصر واحد: الرموز (tokens)، مما يُفَتِّح آفاقًا واسعة للتوسع في التدريب والاستدلال. تُظهر نتائجنا أن توقع الرمز التالي مسار واعد نحو بناء ذكاء متعدد الوسائط عام، يتجاوز حدود اللغة. ونُفْتِح مصادر تقنيات ونماذج رئيسية لدعم الأبحاث المستقبلية في هذا الاتجاه.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار