Command Palette
Search for a command to run...
3D AffordanceNet: معيار لفهم القدرات البصرية للأجسام
3D AffordanceNet: معيار لفهم القدرات البصرية للأجسام
Deng Shengheng ; Xu Xun ; Wu Chaozheng ; Chen Ke ; Jia Kui
الملخص
القدرة على فهم طرق التفاعل مع الأشياء من خلال الإشارات البصرية، المعروفة أيضًا بـ "الفعالية البصرية" (visual affordance)، تعد أساسية في أبحاث الروبوتات الموجهة بالرؤية. وهذا يشمل تصنيف وتقسيم وتفسير الفعالية البصرية. قد تم إجراء دراسات سابقة في مجالات الصور ثنائية الأبعاد وثنائية الأبعاد نصفية (2.5D)، ومع ذلك، فإن فهمًا وظيفيًا حقيقيًا لفعالية الأشياء يتطلب التعلم والتنبؤ في المجال المادي ثلاثي الأبعاد، وهو ما لا يزال غير موجود في المجتمع العلمي. في هذا العمل، نقدم مجموعة بيانات 3D AffordanceNet، وهي معيار يحتوي على 23 ألف شكل من 23 فئة معنوية للأجسام، وقد تم تسميتها بـ 18 فئة من الفعاليات البصرية. بناءً على هذه المجموعة البيانات، نوفر ثلاثة مهام معيارية لتقييم فهم الفعالية البصرية، تشمل تقدير الفعالية للأشكال الكاملة والآراء الجزئية والتغيرات الدوارة. يتم تقييم ثلاثة شبكات عصبية عميقة حديثة للسحابة النقطية (point cloud) على جميع المهام. بالإضافة إلى ذلك، نقوم أيضًا بدراسة تعلم شبه مشرف (semi-supervised learning) لاستكشاف إمكانية الاستفادة من البيانات غير المصنفة. تظهر النتائج الشاملة لمجموعة البيانات التي ساهمنا بها الوعد الذي تحمله الفعالية البصرية كمعيار قيم ولكن صعب للغاية.