HyperAIHyperAI
منذ 4 أشهر

MonoLSS: انتقاء العينات القابل للتعلم للكشف ثلاثي الأبعاد الأحادي العين

Li, Zhenjia ; Jia, Jinrang ; Shi, Yifeng
MonoLSS: انتقاء العينات القابل للتعلم للكشف ثلاثي الأبعاد الأحادي العين
الملخص

في مجال القيادة الذاتية، يعتبر الكشف ثلاثي الأبعاد الأحادي العدسة مهمة حاسمة تهدف إلى تقدير الخصائص الثلاثية الأبعاد (العمق، البعد، والتوجيه) للأجسام في صورة واحدة ملونة (RGB). وقد استخدمت الأعمال السابقة الميزات بطريقة حدسية لتعلم الخصائص الثلاثية الأبعاد دون مراعاة أن الميزات غير المناسبة قد تكون لها آثار سلبية. في هذا البحث، تم تقديم مفهوم اختيار العينات بحيث يجب تدريب العينات المناسبة فقط لتقدير الخصائص الثلاثية الأبعاد. لاختيار العينات بشكل تكيفي، نقترح وحدة اختيار عينات قابلة للتعلم (Learnable Sample Selection - LSS)، والتي تعتمد على خوارزمية Gumbel-Softmax وآليّة تقسيم العينات بناءً على المسافة النسبية. تعمل وحدة LSS تحت استراتيجية التسخين الأولي مما يؤدي إلى تحسين الاستقرار أثناء التدريب. بالإضافة إلى ذلك، بما أن وحدة LSS المخصصة لاختيار عينات الخصائص الثلاثية تعتمد على الميزات على مستوى الجسم، فقد طورنا طريقة زيادة البيانات تُسمى MixUp3D لتثري عينات الخصائص الثلاثية الأبعاد مع الحفاظ على مبادئ التصوير دون إدخال الغموض. باعتبارهما طريقتين متعامدين، يمكن استخدام وحدة LSS وطريقة MixUp3D بشكل مستقل أو مجتمع. أظهرت التجارب الكافية أن استخدامهما مجتمعًا يمكن أن يؤدي إلى آثار تعاونية، مما يحقق تحسينات تتجاوز مجرد مجموع التطبيقات الفردية لهما. باستخدام وحدة LSS وطريقة MixUp3D بدون أي بيانات إضافية، يحتل طرقنا المسمى MonoLSS المرتبة الأولى في جميع الفئات الثلاث (السيارات، الدراجون الهوائيون، والمشاة) في معيار كشف الأجسام ثلاثي الأبعاد KITTI، ويحقق نتائج تنافسية على كل من مجموعة بيانات Waymo وتقييم البيانات المتقاطعة KITTI-nuScenes. يتضمن الرمز البرمجي في المادة الإضافية وسيتم إطلاقه لتسهيل الدراسات الأكاديمية والصناعية ذات الصلة.