منذ 8 أشهر

الملخص

يقدم هذا البحث نماذج متعددة الوسائط موحدة ومحسنة، أي \emph{Show-o2}، التي تستفيد من النمذجة الذاتية التكرارية وتطابق التدفق. تم بناء هذه النماذج على أساس فضاء مُشفِّر تلقائي متغير ثلاثي الأبعاد سببي، حيث يتم إنشاء تمثيلات بصرية موحدة عبر مسار ثنائي للدمج المكاني (والزماني)، مما يتيح القابلية للتوسع في مجالات الصور والفيديوهات مع ضمان فهم وتوليد متعدد الوسائط فعال. استنادًا إلى نموذج لغوي، يتم تطبيق النمذجة الذاتية التكرارية وتطابق التدفق بشكل أصلي على رأس اللغة ورأس التدفق على التوالي، لتسهيل تنبؤ الرموز النصية وتوليد الصور/الفيديوهات. تم تصميم وصفة تدريب ثنائية المراحل لتعلم فعال وتوسع إلى نماذج أكبر. تظهر النماذج الناتجة \emph{Show-o2} قدرتها على التعامل مع مجموعة متنوعة من مهام الفهم والتوليد المتعددة الوسائط عبر وسائط مختلفة، بما في ذلك النصوص والصور والفيديوهات. تم إطلاق الكود والنماذج في هذا الرابط: \url{this https URL}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار