HyperAIHyperAI

Command Palette

Search for a command to run...

نُوَوَا: التدريب المسبق للتركيب البصري لخلق عالم بصري عصبي

Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan

الملخص

تقدم هذه الورقة نموذجًا مُدرَّبًا مسبقًا متعدد الوسائط موحَّدًا يُدعى NÜWA، يمكنه إنشاء بيانات بصرية جديدة أو تعديل البيانات البصرية الموجودة (أي الصور والفيديوهات) لتنفيذ مهام متعددة في التوليد البصري. ولتحقيق التغطية الشاملة للغة والصورة والفيديو في سياقات مختلفة، تم تصميم إطار عمل مُشفَّر-مُفكَّك ثلاثي الأبعاد (3D Transformer Encoder-Decoder)، الذي يمكنه معالجة الفيديوهات كبيانات ثلاثية الأبعاد، كما يمكنه التكيف مع النصوص كبيانات أحادية البعد (1D) والصور كبيانات ثنائية الأبعاد (2D). كما تم اقتراح آلية انتباه قريبة ثلاثية الأبعاد (3DNA) لمراعاة الطبيعة الخاصة للبيانات البصرية وتقليل التعقيد الحسابي. تم تقييم نموذج NÜWA على 8 مهام تطبيقية تالية (downstream tasks). ومقارنةً بسلسلة من النماذج القوية السابقة، حقق NÜWA نتائج متقدمة على مستوى الحالة الحالية (state-of-the-art) في مهام تحويل النص إلى صورة، وتحويل النص إلى فيديو، وتوقع الفيديو، وغيرها. علاوةً على ذلك، أظهر أداءً مدهشًا في المهام ذات الصفر-الإطار (zero-shot) المتعلقة بتعديل الصور والفيديوهات بقيادة النص. يمكن الوصول إلى مستودع المشروع عبر الرابط: https://github.com/microsoft/NUWA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نُوَوَا: التدريب المسبق للتركيب البصري لخلق عالم بصري عصبي | مستندات | HyperAI