Command Palette
Search for a command to run...
Jinheng Xie Zhenheng Yang Mike Zheng Shou

الملخص
يقدم هذا البحث نماذج متعددة الوسائط موحدة ومحسنة، أي \emph{Show-o2}، التي تستفيد من النمذجة الذاتية التكرارية وتطابق التدفق. تم بناء هذه النماذج على أساس فضاء مُشفِّر تلقائي متغير ثلاثي الأبعاد سببي، حيث يتم إنشاء تمثيلات بصرية موحدة عبر مسار ثنائي للدمج المكاني (والزماني)، مما يتيح القابلية للتوسع في مجالات الصور والفيديوهات مع ضمان فهم وتوليد متعدد الوسائط فعال. استنادًا إلى نموذج لغوي، يتم تطبيق النمذجة الذاتية التكرارية وتطابق التدفق بشكل أصلي على رأس اللغة ورأس التدفق على التوالي، لتسهيل تنبؤ الرموز النصية وتوليد الصور/الفيديوهات. تم تصميم وصفة تدريب ثنائية المراحل لتعلم فعال وتوسع إلى نماذج أكبر. تظهر النماذج الناتجة \emph{Show-o2} قدرتها على التعامل مع مجموعة متنوعة من مهام الفهم والتوليد المتعددة الوسائط عبر وسائط مختلفة، بما في ذلك النصوص والصور والفيديوهات. تم إطلاق الكود والنماذج في هذا الرابط: \url{this https URL}.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.