HyperAIHyperAI
منذ 2 أشهر

NUWA-Infinity: التوليد الذاتي المتكرر فوق التوليد الذاتي المتكرر لتركيب بصري لا نهائي

Wu, Chenfei ; Liang, Jian ; Hu, Xiaowei ; Gan, Zhe ; Wang, Jianfeng ; Wang, Lijuan ; Liu, Zicheng ; Fang, Yuejian ; Duan, Nan
NUWA-Infinity: التوليد الذاتي المتكرر فوق التوليد الذاتي المتكرر لتركيب بصري لا نهائي
الملخص

في هذا البحث، نقدم نموذج NUWA-Infinity، وهو نموذج توليدي لدمج البصرية اللامتناهية، والذي يُعرَّف كمهمة إنتاج صور عالية الدقة أو مقاطع فيديو طويلة المدة بحجم متغير. تم اقتراح آلية توليد ذاتية التحكم فوق ذاتية التحكم للتعامل مع هذه المهمة التوليدية المتغيرة الحجم، حيث يقوم النموذج الذاتي التحكم على مستوى القطعة (patch-level) بأخذ الاعتبارات المتعلقة بالروابط بين القطع، بينما يقوم النموذج الذاتي التحكم على مستوى الرمز (token-level) بأخذ الاعتبارات المتعلقة بالروابط بين الرموز البصرية داخل كل قطعة. تم تقديم خزان السياق القريب (Nearby Context Pool - NCP) لتخزين القطع المرتبطة التي تم إنتاجها مسبقًا كسياق للقطعة الجارية الإنتاج، مما يمكن من توفير تكاليف الحساب بشكل كبير دون التضحية بنموذج الارتباط على مستوى القطعة. يتم استخدام متحكم الاتجاه العشوائي (Arbitrary Direction Controller - ADC) لتحديد ترتيبات الإنتاج المناسبة لمهام مختلفة من دمج البصرية وتعلم غرز موقعية واعية بالترتيب. مقارنةً بدال-إي (DALL-E)، وإيماجن (Imagen)، وبارتاي (Parti)، يمكن لنماذج NUWA-Infinity إنتاج صور عالية الدقة بأحجام عشوائية بالإضافة إلى دعم إنتاج مقاطع الفيديو طويلة المدة. مقارنةً بنموذج NUWA أيضًا، الذي يغطي الصور والفيديوهات، فإن NUWA-Infinity تتميز بقدرات أفضل في دمج البصرية من حيث الدقة والقدرة على الإنتاج بأحجام متغيرة. رابط GitHub هو: https://github.com/microsoft/NUWA. رابط الصفحة الرئيسية هو: https://nuwa-infinity.microsoft.com.

NUWA-Infinity: التوليد الذاتي المتكرر فوق التوليد الذاتي المتكرر لتركيب بصري لا نهائي | أحدث الأوراق البحثية | HyperAI