HyperAIHyperAI
منذ 2 أشهر

Pix2Vox: إعادة بناء ثلاثية الأبعاد واعية للسياق من صور أحادية ومulti-المنظور

Haozhe Xie; Hongxun Yao; Xiaoshuai Sun; Shangchen Zhou; Shengping Zhang
Pix2Vox: إعادة بناء ثلاثية الأبعاد واعية للسياق من صور أحادية ومulti-المنظور
الملخص

استعادة التمثيل ثلاثي الأبعاد للكائن من صور RGB أحادية الرؤية أو متعددة الرؤية باستخدام الشبكات العصبية العميقة جذبت اهتمامًا متزايدًا في السنوات القليلة الماضية. استخدمت العديد من الأعمال الرئيسية (مثل 3D-R2N2) الشبكات العصبية المتكررة (RNNs) لدمج الخرائط الميزات المستخرجة من الصور الإدخال بشكل تتابعي. ومع ذلك، عند تقديم نفس مجموعة الصور الإدخال بترتيبات مختلفة، لا تستطيع الأساليب القائمة على RNN إنتاج نتائج إعادة بناء متسقة. بالإضافة إلى ذلك، بسبب فقدان الذاكرة طويل الأمد، لا يمكن للشبكات العصبية المتكررة استغلال الصور الإدخال بشكل كامل لتحسين نتائج إعادة البناء. لحل هذه المشكلات، نقترح إطار عمل جديد لإعادة بناء الكائنات أحادية الرؤية ومتعددة الرؤية ثلاثي الأبعاد، يُسمى Pix2Vox. من خلال استخدام مُشفِّر-مُفكِّك مصمم بدقة، يتم توليد حجم ثلاثي الأبعاد خشن من كل صورة إدخال. ثم يتم تقديم وحدة دمج واعية بالسياق لاختيار إعادة بناء عالية الجودة لكل جزء (مثل أرجل الطاولة) من أحجام ثلاثية الأبعاد خشنة مختلفة للحصول على حجم ثلاثي الأبعاد مدمج. وأخيرًا، يقوم مُحسِّن بتحسين الحجم الثلاثي الأبعاد المدمج بشكل أكبر لإنتاج النتيجة النهائية. تشير نتائج التجارب على مقاييس ShapeNet وPix3D إلى أن Pix2Vox المقترح يتفوق على أفضل الأساليب الحالية بمقدار كبير. علاوة على ذلك، فإن الطريقة المقترحة أسرع 24 مرة من 3D-R2N2 فيما يتعلق بوقت الاستدلال العكسي. وقد أظهرت التجارب على فئات 3D غير مشاهدة في ShapeNet قدرات التعميم الفائقة لطريقتنا.请注意,这里的人名和机构名称(如3D-R2N2和Pix2Vox)在阿拉伯语中通常保留其原始形式,以确保专业性和准确性。如果您有特定的要求或偏好,请告知我。

Pix2Vox: إعادة بناء ثلاثية الأبعاد واعية للسياق من صور أحادية ومulti-المنظور | أحدث الأوراق البحثية | HyperAI