HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

Show-o2: نماذج متعددة الوسائط الموحدة المحسنة الأصلية

Jinheng Xie Zhenheng Yang Mike Zheng Shou

Show-o2: نماذج متعددة الوسائط الموحدة المحسنة الأصلية

الملخص

يقدم هذا البحث نماذج متعددة الوسائط موحدة ومحسنة، أي \emph{Show-o2}، التي تستفيد من النمذجة الذاتية التكرارية وتطابق التدفق. تم بناء هذه النماذج على أساس فضاء مُشفِّر تلقائي متغير ثلاثي الأبعاد سببي، حيث يتم إنشاء تمثيلات بصرية موحدة عبر مسار ثنائي للدمج المكاني (والزماني)، مما يتيح القابلية للتوسع في مجالات الصور والفيديوهات مع ضمان فهم وتوليد متعدد الوسائط فعال. استنادًا إلى نموذج لغوي، يتم تطبيق النمذجة الذاتية التكرارية وتطابق التدفق بشكل أصلي على رأس اللغة ورأس التدفق على التوالي، لتسهيل تنبؤ الرموز النصية وتوليد الصور/الفيديوهات. تم تصميم وصفة تدريب ثنائية المراحل لتعلم فعال وتوسع إلى نماذج أكبر. تظهر النماذج الناتجة \emph{Show-o2} قدرتها على التعامل مع مجموعة متنوعة من مهام الفهم والتوليد المتعددة الوسائط عبر وسائط مختلفة، بما في ذلك النصوص والصور والفيديوهات. تم إطلاق الكود والنماذج في هذا الرابط: \url{this https URL}.

مستودعات الكود

showlab/show-o
رسمي
jax
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Show-o2: نماذج متعددة الوسائط الموحدة المحسنة الأصلية | الأوراق البحثية | HyperAI