RTM3D: الكشف الفوري ثلاثي الأبعاد من نقاط مفتاحية للأجسام للاستخدام في القيادة الذاتية

في هذا العمل، نقترح إطارًا فعالًا ودقيقًا للكشف ثلاثي الأبعاد من خلال كاميرا واحدة (monocular) في تصوير واحد (single shot). تستخدم معظم الكاشفات ثلاثية الأبعاد الناجحة قيد الإسقاط من الصندوق الحدودي ثلاثي الأبعاد إلى الصندوق الحدودي ثنائي الأبعاد كمكون مهم. توفر أربع حواف للصندوق الحدودي ثنائي الأبعاد فقط أربعة قيود، وتتدهور الأداء بشكل كبير مع الخطأ الصغير للكاشف ثنائي الأبعاد. على عكس هذه الأساليب، يتنبأ طريقنا بتسعة نقاط مفتاحية للمنظور في الصندوق الحدودي ثلاثي الأبعاد في الفضاء الصوري، ثم يستخدم العلاقة الهندسية بين المنظورات ثنائية وثلاثية الأبعاد لإعادة استخراج البعد والموقع والتوجه في الفضاء ثلاثي الأبعاد. في هذا الطريقة، يمكن التنبؤ بالخصائص الخاصة بالجسم بشكل مستقر حتى عند وجود ضوضاء كبيرة في تقدير النقاط الرئيسية، مما يمكّننا من الحصول على سرعة كشف سريعة باستخدام هيكل صغير. يتم تدريب طريقتنا باستخدام خصائص الجسم الثلاثية الأبعاد فقط دون الحاجة إلى شبكات خارجية أو بيانات إشراف. يعتبر طريquetنا أول نظام وقت حقيقي للكشف ثلاثي الأبعاد من خلال صورة مونوكولار (monocular image)، بينما يحقق أداءً رائدًا على مقاييس KITTI. سيتم نشر الرمز المصدر على https://github.com/Banconxuan/RTM3D.注释:- "كاشف" 是 "detector" 的阿拉伯语翻译,用于指代检测器。- "مونوكولار" 是 "monocular" 的音译,用于指代单目相机。- "نقاط مفتاحية" 是 "keypoints" 的阿拉伯语翻译,用于指代关键点。- "KITTI" 保持不变,因为这是数据集的专有名词。为了确保表述更加正式和流畅,以下是进一步优化后的版本:في هذا البحث، نقترح إطارًا فعالًا ودقيقًا لكشف الأجسام ثلاثية الأبعاد باستخدام كاميرا واحدة (مونوكولار) وفي تصوير واحد (single shot). تعتمد معظم النظم الناجحة لكشف الأجسام ثلاثية الأبعاد على قيد الإسقاط من الصندوق الحدودي ثلاثي الأبعاد إلى الصندوق الحدودي ثنائي الأبعاض كمكون أساسي. ومع ذلك، فإن أربع حواف للصندوق الحدودي ثنائي الأبعاض توفر فقط أربعة قيود، مما يؤدي إلى تدهور كبير في أدائها حتى مع الخطأ البسيط للكاشف ثنائي الأبعاض. بخلاف هذه الأساليب، يتوقع نهجنا تسعة نقاط رئيسية للمنظور في الصندوق الحدودي ثلاثي الأبعاض داخل الفضاء الصوري، ثم يستخدم العلاقة الهندسية بين المنظورات ثنائية وثلاثية الأبعاض لإعادة بناء البعد والموقع والتوجه للأجسام في الفضاء ثلاثي الأبعاض. بهذه الطريقة، يمكن التنبؤ بالخصائص الجسدانية بشكل مستقر حتى عند وجود ضوضاء كبيرة في تقدير النقاط الرئيسية، مما يسمح لنا بتحقيق سرعة كشف عالية باستخدام هيكل صغير. يتم تدريب نهجنا باستخدام الخصائص الثلاثية للأجسام فقط دون الحاجة إلى شبكات خارجية أو بيانات إشراف إضافية. يعد نهجنا أول نظام وقت حقيقي لكشف الأجسام ثلاثية الأبعاض من خلال صورة مونوكولار بينما يحقق أفضل النتائج على مقاييس KITTI. سيتم توفير الكود المصدر على الرابط: https://github.com/Banconxuan/RTM3D.