DiT-3D: استكشاف محولات التفتيت البسيطة لتوليد الأشكال ثلاثية الأبعاد

أظهرت النماذج التحويلية الحديثة للانتشار (مثل DiT) فعاليتها القوية في توليد صور ثنائية الأبعاد عالية الجودة. ومع ذلك، لا يزال من غير المؤكد ما إذا كانت بنية النموذج التحويلي تؤدي بنفس المستوى العالي في توليد الأشكال ثلاثية الأبعاد، حيث اعتمدت معظم الطرق السابقة للانتشار الثلاثي الأبعاد على بنية U-Net. لسد هذه الفجوة، نقترح نموذج تحويلي جديد للانتشار ثلاثي الأبعاد، أطلقنا عليه اسم DiT-3D، يمكنه تشغيل عملية إزالة الضوضاء مباشرة على السحب النقطية المجزأة باستخدام التحويلات البسيطة. مقارنة بالطرق الحالية التي تعتمد على U-Net، يعتبر DiT-3D أكثر قابلية للتوسع فيما يتعلق بحجم النموذج وينتج توليدات ذات جودة أعلى بكثير. بشكل خاص، يتبنى DiT-3D فلسفة تصميم DiT ولكنه يعدلها من خلال دمج تضمينات الموضع والشظايا ثلاثية الأبعاد لجمع الإدخال بشكل متكيف من السحب النقطية المجزأة. لتخفيض تكلفة الحساب الذاتي للانتباه في توليد الأشكال ثلاثية الأبعاد، ندمج انتباه النافذة الثلاثي الأبعاد في كتل التحويل، حيث يمكن أن يؤدي زيادة طول الرمز الثلاثي الأبعاد نتيجة البعد الإضافي للمكعبات إلى حساب عالي. أخيرًا، يتم استخدام طبقات الخطية وإزالة المكعبات لإعطاء التوقعات حول السحب النقطية الخالية من الضوضاء. بالإضافة إلى ذلك، يدعم هيكلنا التحويلي ضبط الدقة بكفاءة من ثنائي الأبعاد إلى ثلاثي الأبعاد، حيث يمكن أن يحسن نقطة التعريف المسبقة لـ DiT-2D على ImageNet بشكل كبير من أداء DiT-3D على ShapeNet. تظهر نتائج التجارب على مجموعة بيانات ShapeNet أن DiT-3D المقترحة تحقق أفضل أداء في توليد سحب نقطية ثلاثية الأبعاد عالية الدقة ومتنوعة. بشكل خاص، يقلل DiT-3D الخاص بنا دقة الجار الأول (1-Nearest Neighbor Accuracy) للمетод الأكثر حداثة بمقدار 4.59 ويزيد مؤشر التغطية (Coverage metric) بمقدار 3.51 عند تقديره باستخدام المسافة الكامفر (Chamfer Distance).