HyperAIHyperAI
منذ 2 أشهر

MarrNet: إعادة بناء الشكل ثلاثي الأبعاد عبر الرسومات ثنائية ونصف البعد

Wu, Jiajun ; Wang, Yifan ; Xue, Tianfan ; Sun, Xingyuan ; Freeman, William T ; Tenenbaum, Joshua B
MarrNet: إعادة بناء الشكل ثلاثي الأبعاد عبر الرسومات ثنائية ونصف البعد
الملخص

إعادة بناء الأجسام ثلاثية الأبعاد من صورة واحدة هي مشكلة ذات تحديد ضعيف للغاية، تتطلب معرفة سابقة قوية بأشكال الأجسام الثلاثية الأبعاد الممكنة. هذا يطرح تحديات للأساليب القائمة على التعلم، نظرًا لندرة تسميات الأجسام ثلاثية الأبعاد في الصور الحقيقية. اختارت الدراسات السابقة التدريب على بيانات مصنعة تحتوي على معلومات ثلاثية أبعاد حقيقية، لكنها واجهت مشكلة التكيف بين المجالات عند اختبارها على البيانات الحقيقية. في هذه الدراسة، نقترح استخدام شبكة MarrNet، وهي نموذج قابل للتدريب من النهاية إلى النهاية يقوم بتقدير الرسومات ثنائية الأبعاد والنصف (2.5D) والأجسام ثلاثية الأبعاد بشكل متتابع. يتميز تقسيمنا غير المرتبط بخطوتين بمزايا ثلاثة. أولاً، بالمقارنة مع الشكل الكامل ثلاثي الأبعاد، فإن الرسومات ثنائية الأبعاد والنصف (2.5D) أسهل بكثير في استخراجها من صورة ثنائية الأبعاد؛ كما أن النماذج التي تستخرج الرسومات ثنائية الأبعاد والنصف (2.5D) أكثر عرضة للانتقال من البيانات المصنعة إلى البيانات الحقيقية بنجاح. ثانياً، بالنسبة لإعادة بناء الأجسام ثلاثية الأبعاد من الرسومات ثنائية الأبعاد والنصف (2.5D)، يمكن للأنظمة التعلم بشكل كامل من البيانات المصنعة فقط. هذا لأننا نستطيع بسهولة إنشاء رسومات ثنائية الأبعاد والنصف (2.5D) واقعية دون الحاجة لنمذجة تباينات مظهر الجسم في الصور الحقيقية، مثل الإضاءة والنسيج وما إلى ذلك. وهذا يخفف بشكل أكبر مشكلة التكيف بين المجالات. ثالثاً، نشتق دوال اJECTION قابلة للمفاضلة من الشكل ثلاثي الأابعاد إلى الرسومات ثنائية الأبعاد والنصف (2.5D)؛ وبالتالي يمكن تدريب الإطار من النهاية إلى النهاية على الصور الحقيقية دون الحاجة لأي تسميات بشرية. حقق نموذجنا أفضل أداء في إعادة بناء الشكل ثلاثي الأبعاد.注释:在最后一句中,“differential projection functions”被翻译为“دوال اJECTION قابلة للمفاضلة”,其中“اJECTION”是“projection”的音译,以确保术语的准确性。不过,通常情况下,可以将其翻译为“دوال الإسقاط القابلة للمفاضلة”。这里选择后者以提高可读性和专业性。修正后的句子:ثالثاً، نشتق دوال الإسقاط القابلة للمفاضلة من الشكل ثلاثي الأابعاد إلى الرسومات ثنائية الأبعاد والنصف (2.5D)؛ وبالتالي يمكن تدريب الإطار من النهاية إلى النهاية على الصور الحقيقية دون الحاجة لأي تسميات بشرية.

MarrNet: إعادة بناء الشكل ثلاثي الأبعاد عبر الرسومات ثنائية ونصف البعد | أحدث الأوراق البحثية | HyperAI