Command Palette
Search for a command to run...
Show-o2: نماذج متعددة الوسائط الموحدة المحسنة الأصلية
Show-o2: نماذج متعددة الوسائط الموحدة المحسنة الأصلية
Jinheng Xie Zhenheng Yang Mike Zheng Shou
الملخص
يقدم هذا البحث نماذج متعددة الوسائط موحدة ومحسنة، أي \emph{Show-o2}، التي تستفيد من النمذجة الذاتية التكرارية وتطابق التدفق. تم بناء هذه النماذج على أساس فضاء مُشفِّر تلقائي متغير ثلاثي الأبعاد سببي، حيث يتم إنشاء تمثيلات بصرية موحدة عبر مسار ثنائي للدمج المكاني (والزماني)، مما يتيح القابلية للتوسع في مجالات الصور والفيديوهات مع ضمان فهم وتوليد متعدد الوسائط فعال. استنادًا إلى نموذج لغوي، يتم تطبيق النمذجة الذاتية التكرارية وتطابق التدفق بشكل أصلي على رأس اللغة ورأس التدفق على التوالي، لتسهيل تنبؤ الرموز النصية وتوليد الصور/الفيديوهات. تم تصميم وصفة تدريب ثنائية المراحل لتعلم فعال وتوسع إلى نماذج أكبر. تظهر النماذج الناتجة \emph{Show-o2} قدرتها على التعامل مع مجموعة متنوعة من مهام الفهم والتوليد المتعددة الوسائط عبر وسائط مختلفة، بما في ذلك النصوص والصور والفيديوهات. تم إطلاق الكود والنماذج في هذا الرابط: \url{this https URL}.