Command Palette
Search for a command to run...
Emu3.5: النماذج متعددة الوسائط الأصلية هي متعلمون للعالم
Emu3.5: النماذج متعددة الوسائط الأصلية هي متعلمون للعالم
الملخص
نُقدِّم نموذج Emu3.5، وهو نموذج عالم متعدد الوسائط ذي حجم كبير، قادر على التنبؤ بالحالة التالية بشكل طبيعي عبر مجالات الرؤية واللغة. تم تدريب Emu3.5 مسبقًا بشكل متكامل (end-to-end) باستخدام هدف تنبؤ الرمز التالي الموحّد، على مجموعة بيانات مكونة من تسلسلات مختلطة بين الرؤية واللغة، تضم أكثر من 10 تريليون رمز، وتم جمعها أساسًا من الإطارات المتتالية ونصوص التسجيلات الخاصة بمقاطع الفيديو على الإنترنت. يتمتع النموذج بقدرة طبيعية على استقبال إدخالات مختلطة بين الرؤية واللغة، وإنتاج إخراجات مختلطة أيضًا. كما تم تدريب Emu3.5 لاحقًا باستخدام تعلم التدعيم على نطاق واسع، بهدف تعزيز القدرة على الاستدلال والتعبير متعدد الوسائط. ولتحسين كفاءة الاستدلال، نقترح طريقة "التكيف التفاضلي المنفصل" (Discrete Diffusion Adaptation - DiDA)، التي تحوّل عملية فك التشفير حرفًا بحرف إلى تنبؤ متوازي ثنائي الاتجاه، ما يُسرّع عملية استدلال الصورة الواحدة بحوالي 20 مرة دون التضحية بالأداء. يُظهر Emu3.5 قدرات متعددة الوسائط الطبيعية القوية، بما في ذلك توليد الرؤية واللغة على مدى طويل، وتوليد الصور من أي نوع (X2I)، وتوليد صور معقدة غنية بالنص. كما يُبدي قدرات عامة في نمذجة العالم، تُمكّنه من استكشاف عالم متسق مكانيًا وزمانيًا، وتنفيذ عمليات تفاعلية مُفتوحة في عوالم متنوعة ومهام مختلفة. بالمقارنة، يُحقّق Emu3.5 أداءً مماثلًا لنموذج Gemini 2.5 Flash Image (Nano Banana) في مهام توليد وتحرير الصور، ويُظهر نتائج متفوّقة في مجموعة مهام التوليد المختلطة. ونُفْتِح مصدر Emu3.5 عبر الرابط: https://github.com/baaivision/Emu3.5 لدعم الأبحاث الجماعية.