قطعاً! ستطلق OpenAI منتجًا جديدًا في نهاية العام. يمكن لبطاقة واحدة إنشاء سحابة نقاط ثلاثية الأبعاد في دقيقة واحدة. تحويل النصوص إلى ثلاثية الأبعاد يودع عصر استهلاك الطاقة الحاسوبية العالية

المحتويات في لمحة:بعد DALL-E وChatGPT، بذلت OpenAI جهدًا آخر وأصدرت مؤخرًا Point·E، الذي يمكنه إنشاء سحب نقاط ثلاثية الأبعاد بشكل مباشر استنادًا إلى المطالبات النصية. الكلمات المفتاحية:سحابة النقاط ثلاثية الأبعاد OpenAI Point E
تسعى OpenAI إلى تحقيق الأداء في نهاية العام. منذ أكثر من نصف شهر، تم إطلاق ChatGPT، لكن العديد من مستخدمي الإنترنت لم يكتشفوا ذلك بعد. وقد أطلقت الشركة مؤخرًا أداة قوية أخرى بهدوء - Point·E، والتي يمكنها إنشاء سحب نقطية ثلاثية الأبعاد بشكل مباشر استنادًا إلى المطالبات النصية.
تحويل النص إلى ثلاثي الأبعاد: باستخدام النهج الصحيح، يمكن للمرء أن يفعل شيئين
أعتقد أن الجميع على دراية بالنمذجة ثلاثية الأبعاد. في السنوات الأخيرة، أصبح من الممكن رؤية النمذجة ثلاثية الأبعاد في مجالات مثل إنتاج الأفلام وألعاب الفيديو والتصميم الصناعي والواقع الافتراضي والواقع المعزز.
ومع ذلك، فإن إنشاء صور ثلاثية الأبعاد واقعية بمساعدة الذكاء الاصطناعي لا يزال عملية تستغرق وقتًا طويلاً وتتطلب الكثير من العمل.إذا أخذنا Google DreamFusion كمثال، فإن إنشاء صور ثلاثية الأبعاد من نص معين يتطلب عادةً وحدات معالجة رسومية متعددة وتشغيلها لعدة ساعات.

بشكل عام، تنقسم طرق تحويل النص إلى ثلاثي الأبعاد إلى فئتين:
الطريقة 1:قم بتدريب النماذج التوليدية مباشرة على البيانات المزدوجة (النصية، ثلاثية الأبعاد) أو البيانات ثلاثية الأبعاد غير المسمّاة.
على الرغم من أن مثل هذه الأساليب يمكنها توليد عينات بشكل فعال من خلال الاستفادة من أساليب النموذج التوليدي الموجودة، إلا أنه من الصعب توسيع نطاقها لتشمل مطالبات نصية معقدة بسبب عدم وجود مجموعات بيانات ثلاثية الأبعاد واسعة النطاق.
الطريقة الثانية:استخدم نماذج تحويل النص إلى صورة المدربة مسبقًا لتحسين التمثيلات ثلاثية الأبعاد القابلة للتفاضل.
عادةً ما تكون هذه الطرق قادرة على التعامل مع مطالبات نصية معقدة ومتنوعة، ولكن عملية التحسين لكل عينة مكلفة. علاوة على ذلك، بسبب عدم وجود أولوية ثلاثية الأبعاد قوية، قد تقع مثل هذه الأساليب في الحدود الدنيا المحلية (والتي لا يمكن أن تتوافق بشكل فردي مع كائن ثلاثي الأبعاد ذي معنى أو متماسك).
يجمع Point·E بين نموذج النص إلى صورة ونموذج الصورة إلى ثلاثي الأبعاد.من خلال الجمع بين مزايا الطريقتين المذكورتين أعلاه،تم تحسين كفاءة النمذجة ثلاثية الأبعاد بشكل أكبر، حيث لا يتطلب الأمر سوى وحدة معالجة رسومية واحدة ودقيقة أو دقيقتين لإكمال تحويل النص إلى سحابة نقاط ثلاثية الأبعاد.
تحليل المبادئ: 3 خطوات لإنشاء سحابة نقاط ثلاثية الأبعاد
في النقطة E، يستفيد نموذج تحويل النص إلى صورة من مجموعة كبيرة من النصوص (زوج من النص والصورة) لتمكينه من التعامل بشكل صحيح مع مطالبات النص المعقدة؛ يتم تدريب نموذج الصورة ثلاثية الأبعاد على مجموعة بيانات أصغر (صورة، زوج ثلاثي الأبعاد).
تنقسم عملية إنشاء سحابة نقاط ثلاثية الأبعاد استنادًا إلى مطالبات النص باستخدام Point·E إلى ثلاث خطوات:
1. إنشاء عرض تركيبي استنادًا إلى مطالبة النص
2. إنشاء سحابة نقاط خشنة (1024 نقطة) بناءً على العرض الاصطناعي
3. إنشاء سحابة نقاط دقيقة (4096 نقطة) استنادًا إلى سحابة نقاط منخفضة الدقة وعرض اصطناعي

نظرًا لأن تنسيق البيانات وجودة البيانات لهما تأثير كبير على نتائج التدريب،استخدمت Point·E برنامج Blender لتحويل كافة بيانات التدريب إلى تنسيق مشترك.
يدعم Blender تنسيقات ثلاثية الأبعاد متعددة ويأتي مع محرك عرض محسن. يقوم البرنامج النصي Blender بتوحيد النموذج في مكعب محدد، وتكوين إعداد إضاءة قياسي، وأخيرًا تصدير صورة RGBAD باستخدام محرك العرض في الوقت الفعلي المدمج في Blender.
نص برمجي لتشغيله داخل Blender لعرض نموذج ثلاثي الأبعاد كصور RGBAD. مثال على الاستخدام blender -b -P blender_script.py -- \ --input_path ../../examples/example_data/corgi.ply \ --output_path render_out. مرّر `--camera_pose z-circular-elevated` للعرض المستخدم لحساب نتائج CLIP R-Precision. سيتضمن مجلد الإخراج ملفات بيانات وصفية json لكل عرض مُعرض، بالإضافة إلى ملف بيانات وصفية عام للعرض. سيتم حفظ كل صورة كمجموعة من ملفات PNG بدقة 16 بت لكل قناة (rgbad)، بالإضافة إلى عرض كامل بدرجات الرمادي للعرض.
كود البرنامج النصي Blender
من خلال تشغيل البرنامج النصي، يتم عرض النموذج ثلاثي الأبعاد بشكل موحد كصورة RGBAD
للحصول على النص الكامل، انظر:
مقارنة سابقة بين النص والذكاء الاصطناعي ثلاثي الأبعاد
خلال العامين الماضيين، كانت هناك العديد من الاستكشافات حول توليد نماذج نصية ثلاثية الأبعاد.كما أطلقت شركات كبرى مثل Google و NVIDIA الذكاء الاصطناعي الخاص بها.
لقد قمنا بجمع وتجميع ثلاثة أنظمة ذكاء اصطناعي لتحويل النص إلى ثلاثي الأبعاد لتتمكن من مقارنة الاختلافات أفقيًا.
دريم فيلدز
وكالة النشر:جوجل
وقت الإصدار:ديسمبر 2021
عنوان المشروع:https://ajayj.com/dreamfields
يجمع DreamFields بين العرض العصبي والتمثيل المتعدد الوسائط للصور والنصوص.بالاعتماد على أوصاف النصوص وحدها، من الممكن إنشاء مجموعة متنوعة من أشكال وألوان الكائنات ثلاثية الأبعاد دون إشراف ثلاثي الأبعاد.

في عملية إنشاء DreamFields للأشياء ثلاثية الأبعاد،ويعتمد على نموذج الصورة والنص المدرب مسبقًا على مجموعة كبيرة من بيانات الصور النصية ويحسن مجال الإشعاع العصبي من وجهات نظر متعددة.يتيح هذا للصور التي يتم تقديمها بواسطة نموذج CLIP المدرب مسبقًا تحقيق نتائج جيدة على النص المستهدف.
دريم فيوجن
وكالة النشر:جوجل
وقت الإصدار:سبتمبر 2022
عنوان المشروع:https://dreamfusion3d.github.io/
يمكن لـ DreamFusion تحقيق توليف النص إلى صورة ثلاثية الأبعاد بمساعدة نموذج انتشار النص إلى صورة ثنائي الأبعاد المدرب مسبقًا.
يقدم DreamFusion خسارة تعتمد على تقطير كثافة الاحتمالية، مما يتيح استخدام نموذج الانتشار ثنائي الأبعاد كأولوية لتحسين مولد الصور البارامترية.

من خلال تطبيق هذه الخسارة في إجراء مماثل لـ DeepDream، يقوم Dreamfusion بتحسين نموذج ثلاثي الأبعاد تم تهيئته عشوائيًا (حقل الإشعاع العصبي، أو NeRF) إلى خسارة منخفضة نسبيًا للعروض ثنائية الأبعاد من زوايا عشوائية عبر الانحدار التدرجي.
لا يتطلب Dreamfusion بيانات تدريب ثلاثية الأبعاد، ولا يحتاج إلى تعديل نموذج انتشار الصورة.تم إثبات فعالية نموذج انتشار الصورة المدرب مسبقًا كأولوية.
ماجيك 3D
وكالة النشر:إنفيديا
وقت الإصدار:نوفمبر 2022
عنوان المشروع:deepimagination.cc/Magic3D/
Magic3D هي أداة لإنشاء محتوى من النص إلى ثلاثي الأبعاد ويمكن استخدامها لإنشاء نماذج شبكية ثلاثية الأبعاد عالية الجودة.باستخدام تقنية معالجة الصور وطرق التحرير الفوري المستندة إلى النص، يوفر Magic3D طرقًا جديدة للتحكم في التوليف ثلاثي الأبعاد، مما يفتح آفاقًا جديدة لمجموعة متنوعة من التطبيقات الإبداعية.

تتكون العملية من مرحلتين:
المرحلة الأولى:استخدم انتشارًا منخفض الدقة قبل الحصول على نموذج خشن، واستخدم شبكة التجزئة وبنية التسارع المتفرقة لتسريعه.
المرحلة الثانية:يتم تحسين نموذج الشبكة المحكم الذي تم تهيئته من تمثيل عصبي خشن من خلال معالج قابل للتفاضل فعال يتفاعل مع نموذج انتشار كامن عالي الدقة.
لا يزال التقدم التكنولوجي بحاجة إلى اختراق القيود
يتم إطلاق الذكاء الاصطناعي لتحويل النص إلى ثلاثي الأبعاد تدريجيًا، لكن التوليف ثلاثي الأبعاد القائم على النص لا يزال في مراحله الأولى من التطوير.لا يوجد معيار معترف به عالميًا في الصناعة يمكن استخدامه لتقييم المهام ذات الصلة بشكل أكثر عدالة.
تتمتع Point·E بأهمية كبيرة في عملية تحويل النص إلى ثلاثي الأبعاد بسرعة.ويحسن بشكل كبير كفاءة المعالجة ويقلل من استهلاك الطاقة الحاسوبية.
ولكن لا يمكن إنكار ذلكلا تزال النقطة E لديها بعض القيود.على سبيل المثال، يتطلب خط الأنابيب تقديمًا اصطناعيًا، كما أن سحابة النقاط ثلاثية الأبعاد الناتجة تتمتع بدقة منخفضة، وهو ما لا يكفي لالتقاط الأشكال أو القوام الدقيقة.
ما رأيك في مستقبل تحويل النصوص إلى صور ثلاثية الأبعاد؟ ما هو اتجاه التنمية في المستقبل؟ مرحبا بكم في ترك تعليقاتكم في قسم التعليقات للمناقشة.