HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 3 أشهر

Emu3: التنبؤ بالحرف التالي هو كل ما تحتاجه

Emu3: التنبؤ بالحرف التالي هو كل ما تحتاجه

الملخص

بينما يُعد توقع الرمز التالي (next-token prediction) مسارًا واعدًا نحو الذكاء الاصطناعي العام، إلا أنه واجه صعوبات في التفوق في المهام متعددة الوسائط، التي تظل تحت سيطرة نماذج الانتشار (مثل Stable Diffusion) والمناهج المركبة (مثل CLIP المدمج مع النماذج اللغوية الكبيرة). في هذا البحث، نقدّم Emu3، وهو مجموعة جديدة من النماذج متعددة الوسائط من أحدث الأجيال، تم تدريبها بالكامل باستخدام توقع الرمز التالي فقط. من خلال تجزئة الصور والنصوص والفيديوهات إلى فضاء منفصل (discrete space)، نُدرّب نموذجًا واحدًا من نوع المُحَوِّل (transformer) من الصفر على مزيج من التسلسلات متعددة الوسائط. تُظهر Emu3 تفوقًا على العديد من النماذج المحددة المهام المُتَّسَمَة بجودة عالية في مهام التوليد والتمييز، متفوقةً على نماذج رائدة مثل SDXL وLLaVA-1.6، مع التخلي عن الحاجة إلى هياكل انتشارية أو مركبة. كما تُCapabilities Emu3 توليد فيديو عالي الولاء من خلال توقع الرمز التالي في تسلسل فيديو. نبسط التصاميم المعقدة للنماذج متعددة الوسائط من خلال التركيز على عنصر واحد: الرموز (tokens)، مما يُفَتِّح آفاقًا واسعة للتوسع في التدريب والاستدلال. تُظهر نتائجنا أن توقع الرمز التالي مسار واعد نحو بناء ذكاء متعدد الوسائط عام، يتجاوز حدود اللغة. ونُفْتِح مصادر تقنيات ونماذج رئيسية لدعم الأبحاث المستقبلية في هذا الاتجاه.

مستودعات الكود

flagopen/flagscale
pytorch
مذكور في GitHub
baaivision/emu3
pytorch
مذكور في GitHub

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-question-answering-on-mm-vetEmu3
GPT-4 score: 37.2

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Emu3: التنبؤ بالحرف التالي هو كل ما تحتاجه | الأوراق البحثية | HyperAI