شبكة FS-Net: شبكة سريعة تعتمد على الشكل لتقدير وضعية الكائنات ثلاثية الأبعاد في الفئة مع آلية دوران منفصلة

في هذا البحث، نركز على تقدير الوضع والحجم في ستة أبعاد (6D) من الصور ثنائية الأبعاد مع بيانات عمق (RGB-D) على مستوى الفئة. تعاني الأساليب السابقة من استخراج ميزات وضع غير فعال على مستوى الفئة، مما يؤدي إلى دقة منخفضة وسرعة استدلال بطيئة. لحل هذه المشكلة، نقترح شبكة سريعة قائمة على الشكل (FS-Net) مع استخراج ميزات فعّال على مستوى الفئة لتقدير الوضع في ستة أبعاد. أولاً، نصمم ترميزًا ذاتيًا يدرك التوجيه مع التفاف الرسم البياني ثلاثي الأبعاد لاستخراج الميزات الكامنة. يتمتع الميزات الكامنة المستخرجة بالحصانة ضد تحرك النقاط وحجم الجسم بفضل خصائص التفاف الرسم البياني ثلاثي الأبعاد الثابتة أمام التحويل والتغيير في الحجم. ثانياً، للتفكيك الفعّال لمعلومات الدوران على مستوى الفئة من الميزات الكامنة، نقترح آلية دوران منفصلة جديدة تستخدم محولين للاطلاع على معلومات الدوران بشكل مكمل. وفي الوقت نفسه، نقدر الترجمة والحجم باستخدام اثنين من البقايا (residuals)، وهما الاختلاف بين متوسط نقاط الجسم والموقع الحقيقي للترجمة، والاختلاف بين المتوسط الحجمي للفئة والحجم الحقيقي، على التوالي. أخيراً، لزيادة قدرة FS-Net على التعميم، نقترح آلية تشوه ثلاثية الأبعاد قائمة على الصناديق السلكية عبر الإنترنت لتضخيم بيانات التدريب. تظهر التجارب الواسعة التي أجريت على مجموعتين رئيسيتين من البيانات أن الطريقة المقترحة تحقق أفضل الأداء في تقدير وضع الأجسام في ستة أبعاد سواءً كان ذلك على مستوى الفئة أو المستوى الفردي. وبشكل خاص في تقدير الوضع على مستوى الفئة، بدون بيانات صناعية إضافية، تتفوق طريقتنا بنسبة 6.3% على مجموعة بيانات NOCS-REAL مقارنة بالطرق الموجودة حاليًا.