HyperAIHyperAI

Command Palette

Search for a command to run...

3D AffordanceNet: معيار لفهم القدرات البصرية للأجسام

Deng Shengheng ; Xu Xun ; Wu Chaozheng ; Chen Ke ; Jia Kui

الملخص

القدرة على فهم طرق التفاعل مع الأشياء من خلال الإشارات البصرية، المعروفة أيضًا بـ "الفعالية البصرية" (visual affordance)، تعد أساسية في أبحاث الروبوتات الموجهة بالرؤية. وهذا يشمل تصنيف وتقسيم وتفسير الفعالية البصرية. قد تم إجراء دراسات سابقة في مجالات الصور ثنائية الأبعاد وثنائية الأبعاد نصفية (2.5D)، ومع ذلك، فإن فهمًا وظيفيًا حقيقيًا لفعالية الأشياء يتطلب التعلم والتنبؤ في المجال المادي ثلاثي الأبعاد، وهو ما لا يزال غير موجود في المجتمع العلمي. في هذا العمل، نقدم مجموعة بيانات 3D AffordanceNet، وهي معيار يحتوي على 23 ألف شكل من 23 فئة معنوية للأجسام، وقد تم تسميتها بـ 18 فئة من الفعاليات البصرية. بناءً على هذه المجموعة البيانات، نوفر ثلاثة مهام معيارية لتقييم فهم الفعالية البصرية، تشمل تقدير الفعالية للأشكال الكاملة والآراء الجزئية والتغيرات الدوارة. يتم تقييم ثلاثة شبكات عصبية عميقة حديثة للسحابة النقطية (point cloud) على جميع المهام. بالإضافة إلى ذلك، نقوم أيضًا بدراسة تعلم شبه مشرف (semi-supervised learning) لاستكشاف إمكانية الاستفادة من البيانات غير المصنفة. تظهر النتائج الشاملة لمجموعة البيانات التي ساهمنا بها الوعد الذي تحمله الفعالية البصرية كمعيار قيم ولكن صعب للغاية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp