HyperAIHyperAI
منذ 2 أشهر

3D AffordanceNet: معيار لفهم القدرات البصرية للأجسام

Deng, Shengheng ; Xu, Xun ; Wu, Chaozheng ; Chen, Ke ; Jia, Kui
3D AffordanceNet: معيار لفهم القدرات البصرية للأجسام
الملخص

القدرة على فهم طرق التفاعل مع الأشياء من خلال الإشارات البصرية، المعروفة أيضًا بـ "الفعالية البصرية" (visual affordance)، تعد أساسية في أبحاث الروبوتات الموجهة بالرؤية. وهذا يشمل تصنيف وتقسيم وتفسير الفعالية البصرية. قد تم إجراء دراسات سابقة في مجالات الصور ثنائية الأبعاد وثنائية الأبعاد نصفية (2.5D)، ومع ذلك، فإن فهمًا وظيفيًا حقيقيًا لفعالية الأشياء يتطلب التعلم والتنبؤ في المجال المادي ثلاثي الأبعاد، وهو ما لا يزال غير موجود في المجتمع العلمي. في هذا العمل، نقدم مجموعة بيانات 3D AffordanceNet، وهي معيار يحتوي على 23 ألف شكل من 23 فئة معنوية للأجسام، وقد تم تسميتها بـ 18 فئة من الفعاليات البصرية. بناءً على هذه المجموعة البيانات، نوفر ثلاثة مهام معيارية لتقييم فهم الفعالية البصرية، تشمل تقدير الفعالية للأشكال الكاملة والآراء الجزئية والتغيرات الدوارة. يتم تقييم ثلاثة شبكات عصبية عميقة حديثة للسحابة النقطية (point cloud) على جميع المهام. بالإضافة إلى ذلك، نقوم أيضًا بدراسة تعلم شبه مشرف (semi-supervised learning) لاستكشاف إمكانية الاستفادة من البيانات غير المصنفة. تظهر النتائج الشاملة لمجموعة البيانات التي ساهمنا بها الوعد الذي تحمله الفعالية البصرية كمعيار قيم ولكن صعب للغاية.

3D AffordanceNet: معيار لفهم القدرات البصرية للأجسام | أحدث الأوراق البحثية | HyperAI