HyperAIHyperAI
منذ 7 أيام

نُوَوَا: التدريب المسبق للتركيب البصري لخلق عالم بصري عصبي

Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang, Nan Duan
نُوَوَا: التدريب المسبق للتركيب البصري لخلق عالم بصري عصبي
الملخص

تقدم هذه الورقة نموذجًا مُدرَّبًا مسبقًا متعدد الوسائط موحَّدًا يُدعى NÜWA، يمكنه إنشاء بيانات بصرية جديدة أو تعديل البيانات البصرية الموجودة (أي الصور والفيديوهات) لتنفيذ مهام متعددة في التوليد البصري. ولتحقيق التغطية الشاملة للغة والصورة والفيديو في سياقات مختلفة، تم تصميم إطار عمل مُشفَّر-مُفكَّك ثلاثي الأبعاد (3D Transformer Encoder-Decoder)، الذي يمكنه معالجة الفيديوهات كبيانات ثلاثية الأبعاد، كما يمكنه التكيف مع النصوص كبيانات أحادية البعد (1D) والصور كبيانات ثنائية الأبعاد (2D). كما تم اقتراح آلية انتباه قريبة ثلاثية الأبعاد (3DNA) لمراعاة الطبيعة الخاصة للبيانات البصرية وتقليل التعقيد الحسابي. تم تقييم نموذج NÜWA على 8 مهام تطبيقية تالية (downstream tasks). ومقارنةً بسلسلة من النماذج القوية السابقة، حقق NÜWA نتائج متقدمة على مستوى الحالة الحالية (state-of-the-art) في مهام تحويل النص إلى صورة، وتحويل النص إلى فيديو، وتوقع الفيديو، وغيرها. علاوةً على ذلك، أظهر أداءً مدهشًا في المهام ذات الصفر-الإطار (zero-shot) المتعلقة بتعديل الصور والفيديوهات بقيادة النص. يمكن الوصول إلى مستودع المشروع عبر الرابط: https://github.com/microsoft/NUWA.

نُوَوَا: التدريب المسبق للتركيب البصري لخلق عالم بصري عصبي | أحدث الأوراق البحثية | HyperAI