Pix2Vox++: إعادة بناء ثلاثية الأبعاد للكائنات ذات السياق متعدد المقياس من صور واحدة ومتعددة الصور

استحوذ استرداد الشكل ثلاثي الأبعاد لجسم من صورة واحدة أو صور متعددة باستخدام الشبكات العصبية العميقة على اهتمام متزايد في السنوات الأخيرة. تعتمد الأدوات السائدة (مثل 3D-R2N2) على الشبكات العصبية التكرارية (RNN) لدمج خرائط الميزات للصور المدخلة بشكل تسلسلي. ومع ذلك، فإن النماذج القائمة على RNN لا تستطيع إنتاج نتائج استرداد متسقة عند استخدام نفس الصور المدخلة بترتيبات مختلفة. علاوة على ذلك، قد تُفقد الشبكات العصبية التكرارية الميزات المهمة من الصور المدخلة المبكرة بسبب فقدان الذاكرة على المدى الطويل. لمعالجة هذه المشكلات، نقترح إطارًا جديدًا لاسترداد الأشكال ثلاثية الأبعاد من منظور واحد أو من منظور متعدد، يُسمى Pix2Vox++. من خلال استخدام هيكل مشفر-فكك مُصمم بعناية، يُنتج إطار العمل حجمًا ثلاثي الأبعاد أوليًا من كل صورة مدخلة. ثم يتم تقديم وحدة دمج ذات وعي بالسياق متعددة المقاييس لاختيار بشكل تكيفي أفضل النتائج المُستردة لمناطق مختلفة من جميع الأحجام الثلاثية الأبعاد الأولية، بهدف الحصول على حجم ثلاثي أبعاد مدمج. ولتحسين الأجزاء التي تم استردادها بشكل خاطئ في الحجم الثلاثي المدمج، يتم استخدام وحدة تصحيح (refiner) لإنتاج الناتج النهائي. أظهرت النتائج التجريبية على معايير ShapeNet وPix3D وThings3D أن Pix2Vox++ يتفوق على أحدث الأساليب من حيث الدقة والكفاءة.