VSRD: التحديد الشفهي للأشكال الحجمية للمثيلات للكشف عن الأشياء ثلاثية الأبعاد تحت إشراف ضعيف

الكشف عن الأشياء ثلاثية الأبعاد باستخدام الكاميرا أحادية العدسة يشكل تحديًا كبيرًا في فهم المشاهد ثلاثية الأبعاد بسبب طبيعته الغير محددة بشكل جيد في تقدير العمق أحادي العدسة. تعتمد الطرق الحالية بشكل كبير على التعلم الإشرافي باستخدام علامات ثلاثية الأبعاد وفيرة، والتي يتم الحصول عليها عادةً من خلال تسمية النقاط السحابية لليدار (LiDAR) بطريقة مكلفة وشاقة. لحل هذه المشكلة، نقترح إطارًا جديدًا للكشف عن الأشياء ثلاثية الأبعاد تحت إشراف ضعيف يُسمى VSRD (التصوير الحجمي للملامح للكشف) لتدريب كاشفات الأشياء ثلاثية الأبعاد دون أي إشراف ثلاثي الأبعاد ولكن فقط بإشراف ضعيف ثنائي الأبعاد. يتكون VSRD من تسمية تلقائية ثلاثية الأبعاد متعددة الزوايا والتدريب اللاحق لكاشفات الأشياء ثلاثية الأبعاد أحادية العدسة باستخدام العلامات الوهمية التي تم إنشاؤها في مرحلة التسمية التلقائية. في مرحلة التسمية التلقائية، نمثل سطح كل نموذج كحقل بُعد موقّع (SDF) ونقوم برسم ملحته كقناع للنموذج من خلال آلية التصوير الحجمي للملامح المعتمدة على النموذج المقترحة لدينا. لتحقيق تحسين مباشر للمربعات المحيطة الثلاثية الأبعاد عبر الرسم، نفكك حقل البُعد الموقّع لكل نموذج إلى حقل بُعد موقّع لمكعب مستطيل والحقل المتبقي للبُعد (RDF) الذي يمثل الفرق بين المكعب المستطيل والنماذج. هذا الآلанизم يمكننا من تحسين المربعات المحيطة الثلاثية الأبعاد بطريقة شاملة عبر مقارنة القناع المرسوم للنموذج بالقناع الحقيقي للنموذج. تعمل المربعات المحيطة الثلاثية الأبعاد المحسنة كبيانات تدريب فعالة لاكتشاف الأجسام ثلاثية الأبعاد. قمنا بإجراء تجارب واسعة على مجموعة بيانات KITTI-360، مما يظهر أن طريقتنا تتفوق على الطرق الحالية لاكتشاف الأجسام ثلاثية الأبعاد تحت الإشراف الضعيف. يمكن الوصول إلى الشفرة البرمجية من الرابط التالي: https://github.com/skmhrk1209/VSRD.