إعادة بناء ثلاثية الأبعاد متعددة المناظر باستخدام المحول

لقد حققت الطرق القائمة على الشبكات العميقة ذات التعميق (Deep CNN) حتى الآن أفضل النتائج الممكنة في إعادة بناء الأجسام ثلاثية الأبعاد متعددة الزوايا. وعلى الرغم من التقدم الكبير المحرز، فإن الوحدتين الأساسيتين في هذه الطرق—استخراج الميزات من عدة زوايا، ودمج هذه الميزات—تُدرس عادة بشكل منفصل، ويُهمل استكشاف العلاقات بين الكائنات في الزوايا المختلفة. وفي هذا البحث، مستوحى من النجاح الكبير الذي حققته نماذج التحويل (Transformer) القائمة على الانتباه الذاتي في الآونة الأخيرة، نعيد صياغة مسألة إعادة بناء الأجسام ثلاثية الأبعاد متعددة الزوايا على أنها مشكلة تنبؤ من تسلسل إلى تسلسل، ونُقدّم إطارًا جديدًا يُسمّى 3D Volume Transformer (VolT) لهذا الغرض. على عكس الطرق السابقة القائمة على الشبكات العميقة التي تعتمد تصميمًا منفصلًا، نوحد عملية استخراج الميزات ودمج الزوايا داخل شبكة تحويل واحدة. ويتمثل الميزة الطبيعية لتصميمنا في استكشاف العلاقات بين الزوايا باستخدام الانتباه الذاتي بين مدخلات متعددة غير مرتبة. وعلى مجموعة بيانات الشكل شاب (ShapeNet)—التي تمثل معيارًا كبيرًا لإعادة بناء الأجسام ثلاثية الأبعاد—تحقيق طريقة لدينا دقة جديدة قياسية في إعادة بناء الأجسام متعددة الزوايا، مع استخدام عدد أقل من المعلمات بنسبة 70٪ مقارنةً بالطرق الأخرى القائمة على الشبكات العميقة. كما تشير النتائج التجريبية إلى القدرة القوية على التوسع التي يتمتع بها نهجنا. وسيتم إتاحة رمز البرنامج الخاص بنا للجمهور بشكل عام.