HyperAIHyperAI
منذ 2 أشهر

Frustum VoxNet للكشف عن الأشياء ثلاثية الأبعاد من صور RGB-D أو الصور العميقة

Xiaoke Shen; Ioannis Stamos
Frustum VoxNet للكشف عن الأشياء ثلاثية الأبعاد من صور RGB-D أو الصور العميقة
الملخص

في الآونة الأخيرة، ظهرت العديد من أنظمة التصنيف والكشف باستخدام الصور ثنائية الأبعاد (RGB) والصور ثلاثية الأبعاد. في هذا البحث، نصف نظامًا جديدًا للكشف عن الأجسام ثلاثية الأبعاد من سحابة نقاط RGB-D أو عمق فقط. يقوم نظامنا أولاً بتحديد الأجسام في البُعد الثاني (إما RGB أو صورة ثنائية الأبعاد مُحاكاة من بيانات العمق). الخطوة التالية هي الكشف عن الأجسام ثلاثية الأبعاد داخل المخاريط الثلاثية الأبعاد التي تحددها هذه الاكتشافات ثنائية الأبعاد. يتم تحقيق ذلك من خلال تحويل أجزاء من المخاريط إلى مكعبات صغيرة (بما أن المخاريط يمكن أن تكون كبيرة جدًا)، بدلاً من استخدام المخاريط بأكملها كما هو الحال في الأعمال السابقة. يكمن الجديد الرئيسي في نظامنا في تحديد أي أجزاء (الاقتراحات ثلاثية الأبعاد) من المخاريط يجب تحويلها إلى مكعبات صغيرة، مما يسمح لنا بتقديم تمثيلات عالية الدقة حول الأجسام ذات الاهتمام. كما أنه يسمح لنظامنا بأن يكون لديه متطلبات ذاكرة أقل. يتم إدخال هذه الاقتراحات ثلاثية الأبعاد إلى شبكة اتصال كاملة ثلاثية الأبعاد (3D Fully Convolutional Network - FCN) قائمة على ResNet بكفاءة عالية. يعتبر نظام الكشف الثلاثي الأبعاد لدينا سريعًا ويمكن دمجه في منصة روبوتية. بالنسبة لأنظمة لا تقوم بتحويل البيانات إلى مكعبات صغيرة (مثل PointNet)، فإن طرقنا يمكن أن تعمل دون الحاجة إلى تقليل كثافة البيانات. لقد قدمنا أيضًا نهج تجميعي يحسن بشكل أكبر كفاءة نظامنا. تظهر النتائج على مجموعة بيانات SUN RGB-D أن نظامنا، الذي يستند إلى شبكة صغيرة، يمكنه معالجة 20 إطارًا في الثانية مع نتائج كشف مقاربة لأحدث التقنيات، مما يحقق زيادة في السرعة بمقدار ضعفين.

Frustum VoxNet للكشف عن الأشياء ثلاثية الأبعاد من صور RGB-D أو الصور العميقة | أحدث الأوراق البحثية | HyperAI