نموذج غاوسي متعدد المقاييس كبير: LGM لخلق محتوى ثلاثي الأبعاد عالي الدقة
نموذج غاوسي متعدد المقاييس كبير: LGM لخلق محتوى ثلاثي الأبعاد عالي الدقة
Jiaxiang Tang Zhaoxi Chen Xiaokang Chen Tengfei Wang Gang Zeng Ziwei Liu

الملخص
أحرز إنشاء المحتوى ثلاثي الأبعاد تقدماً كبيراً من حيث الجودة والسرعة معًا. وعلى الرغم من أن النماذج الحالية ذات التدفق الأمامي قادرة على إنتاج كائنات ثلاثية الأبعاد خلال ثوانٍ، إلا أن دقة هذه الكائنات محدودة بسبب الحسابات الثقيلة المطلوبة أثناء التدريب. في هذه الورقة، نقدّم نموذج غاوسي متعدد الزوايا الكبير (LGM)، وهي إطار عمل جديد يهدف إلى إنشاء نماذج ثلاثية الأبعاد عالية الدقة من خلال أوامر نصية أو صور من زاوية واحدة. وتتمثل رؤانا الأساسية في جوانب متعددة: أولاً، تمثيل ثلاثي الأبعاد: نقترح استخدام خصائص غاوسي متعددة الزوايا كتمثيل فعّال وقوي، يمكن دمجه لاحقًا لتحقيق عرض قابل للتفاضل. ثانيًا، الهيكل الأساسي ثلاثي الأبعاد: نقدّم نموذج U-Net غير المتماثل كهيكل أساسي عالي الإنتاجية يعمل على صور متعددة الزوايا، والتي يمكن إنشاؤها من أوامر نصية أو صور من زاوية واحدة باستخدام نماذج التشتت متعددة الزوايا. وأظهرت التجارب الواسعة كفاءة ودقة عالية في منهجنا. وتجدر الإشارة إلى أننا حافظنا على السرعة الفائقة في إنشاء الكائنات ثلاثية الأبعاد في غضون 5 ثوانٍ، مع رفع دقة التدريب إلى 512 بكسل، مما يتيح تحقيق إنشاء محتوى ثلاثي الأبعاد عالي الدقة.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.