HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم التمثيلات ثلاثية الأبعاد من النماذج المدربة مسبقًا ثنائية الأبعاد عبر ترميز الصور إلى النقاط المقنعة

Zhang Renrui ; Wang Liuhui ; Qiao Yu ; Gao Peng ; Li Hongsheng

الملخص

التدريب المسبق باستخدام كميات كبيرة من بيانات الصور أصبح معيارًا فعليًا للتمثيلات ثنائية الأبعاد (2D) القوية. ومع ذلك، بسبب تكلفة الحصول على البيانات والشروح المرتفعة، فإن نقص قواعد البيانات ثلاثية الأبعاد (3D) الكبيرة يعرقل بشدة التعلم للحصول على خصائص ثلاثية أبعاد عالية الجودة. في هذا البحث، نقترح بديلًا للحصول على تمثيلات ثلاثية أبعاد متفوقة من خلال استخدام نماذج مسبقة التدريب ثنائية الأبعاد عبر ترميزات الصورة إلى النقطة المقنّعة (Image-to-Point Masked Autoencoders)، والتي سميناها I2P-MAE.من خلال التدريب الذاتي المسبق، نستفيد من المعرفة الثنائية الأبعاد التي تم تعلمها بشكل جيد لتعزيز الترميز الثلاثي الأبعاد المقنّع، الذي يقوم بإعادة بناء الرموز النقطية المقنّعة باستخدام هيكل مشفر-مفكك (encoder-decoder). تحديدًا، نستخدم أولًا نماذج ثنائية الأبعاد جاهزة لاستخراج الخصائص البصرية متعددة الزوايا للسحابة النقطية (point cloud) المدخلة، ثم نقوم بتنفيذ نوعين من استراتيجيات التعلم من الصورة إلى النقطة.الأولى هي استراتيجية التغطية المقنّعة المرشدة بالبعد الثاني (2D-guided masking strategy)، التي تحتفظ بالرموز النقطية ذات الأهمية الدلالية لتكون مرئية للمشفر. مقارنةً بالتغطية العشوائية، يمكن للشبكة التركيز بشكل أفضل على الهياكل الثلاثية الأبعاد الهامة وإعادة بناء الرموز المقنّعة من الإشارات الفضائية الرئيسية.الثانية هي إلزام هذه الرموز المرئية لإعادة بناء الخصائص ثنائية الأبعاد المتعددة الزوايا بعد المشفر. هذا يمكّن الشبكة من الوراثة الفعالة للمعاني ثنائية الأبعاد عالية المستوى التي تم تعلمها من بيانات الصور الغنية لنموذج تمييز ثلاثي أبعاد دقيق.مع مساعدة التدريب المسبق الخاص بنا من الصورة إلى النقطة، يحقق I2P-MAE المحجوز بدون أي تعديل دقيق نسبة دقة 93.4% عند استخدام آلة الدعم الخطية SVM على ModelNet40، وهي تنافس النتائج الكاملة للتداريب الموجودة. عن طريق التعديل الدقيق الإضافي على الجزء الأكثر صعوبة في ScanObjectNN، يصل I2P-MAE إلى أعلى نسبة دقة حالية وهي 90.11%,بزيادة 3.68% عن ثاني أفضل طريقة، مما يدل على قدرته العالية على الانتقال بين المهام. سيتم توفير الكود في https://github.com/ZrrSkywalker/I2P-MAE.注意:在阿拉伯语中,百分比符号通常放在数字后面,因此 "90.11%" 被翻译为 "90.11%"。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp