نُوَوَا: التدريب المسبق للتركيب البصري لخلق عالم بصري عصبي

تقدم هذه الورقة نموذجًا مُدرَّبًا مسبقًا متعدد الوسائط موحَّدًا يُدعى NÜWA، يمكنه إنشاء بيانات بصرية جديدة أو تعديل البيانات البصرية الموجودة (أي الصور والفيديوهات) لتنفيذ مهام متعددة في التوليد البصري. ولتحقيق التغطية الشاملة للغة والصورة والفيديو في سياقات مختلفة، تم تصميم إطار عمل مُشفَّر-مُفكَّك ثلاثي الأبعاد (3D Transformer Encoder-Decoder)، الذي يمكنه معالجة الفيديوهات كبيانات ثلاثية الأبعاد، كما يمكنه التكيف مع النصوص كبيانات أحادية البعد (1D) والصور كبيانات ثنائية الأبعاد (2D). كما تم اقتراح آلية انتباه قريبة ثلاثية الأبعاد (3DNA) لمراعاة الطبيعة الخاصة للبيانات البصرية وتقليل التعقيد الحسابي. تم تقييم نموذج NÜWA على 8 مهام تطبيقية تالية (downstream tasks). ومقارنةً بسلسلة من النماذج القوية السابقة، حقق NÜWA نتائج متقدمة على مستوى الحالة الحالية (state-of-the-art) في مهام تحويل النص إلى صورة، وتحويل النص إلى فيديو، وتوقع الفيديو، وغيرها. علاوةً على ذلك، أظهر أداءً مدهشًا في المهام ذات الصفر-الإطار (zero-shot) المتعلقة بتعديل الصور والفيديوهات بقيادة النص. يمكن الوصول إلى مستودع المشروع عبر الرابط: https://github.com/microsoft/NUWA.