كشف الأجسام ثلاثية الأبعاد والفصل الInstance من صور النطاق ثلاثية الأبعاد والصور اللونية ثنائية الأبعاد
التفصيل الفردي للكائنات والكشف عن الكائنات يُعدان من المشكلات الهامة في مجالات الرؤية الحاسوبية والروبوتات. نعالج هاتين المشكلتين من خلال اقتراح نظام جديد للتفصيل والكشف عن الكائنات. أولاً، نقوم بالكشف عن الكائنات ثنائية الأبعاد باستخدام صور RGB أو صور عمق فقط أو صور RGB-D. ونُقدِّم نظامًا يعتمد على التحويل الثلاثي الأبعاد، يُسمى Frustum VoxNet. يُولِّد هذا النظام مخروطات (frustums) من نتائج الكشف ثنائي الأبعاد، ويقترح صورًا مُكعبية (voxelized) مرشحة ثلاثية الأبعاد لكل مخروط، ثم يستخدم شبكة عصبية متعددة الطبقات (CNN) ثلاثية الأبعاد، بناءً على هذه الصور المرشحة، للقيام بعملية التفصيل الفردي ثلاثية الأبعاد والكشف عن الكائنات ثلاثية الأبعاد. أظهرت النتائج على مجموعة بيانات SUN RGB-D أن استنتاج النظام القائم على RGB-D أسرع بكثير من الطرق المتطورة حاليًا، دون فقدان كبير في الدقة. وفي الوقت نفسه، يمكننا تقديم نتائج تفصيل وكشف باستخدام صور العمق فقط، وبدقة تُقارَن بنتائج الأنظمة القائمة على RGB-D. ويُعد هذا أمرًا مهمًا لأن طرقنا تعمل بكفاءة جيدة في الظروف الإضاءة المنخفضة، أو مع أجهزة استشعار لا تُسجِّل صورًا ملونة (RGB). وأخيرًا، فإن استخدام التفصيل كجزء من خط أنابيبنا يُحسّن دقة الكشف، في الوقت الذي يُوفِّر فيه في نفس الوقت التفصيل الفردي ثلاثي الأبعاد.