SeaBird: تقسيم في رؤية الطائر باستخدام خسارة Dice يحسن الكشف ثلاثي الأبعاد أحادي العدسة عن الأجسام الكبيرة

الكشف عن الأشياء ثلاثية الأبعاد باستخدام الكاميرا أحادية العدسة يحقق أداءً ملحوظًا في السيارات والأشياء الصغيرة. ومع ذلك، يتراجع أداؤه عند التعامل مع الأشياء الكبيرة، مما يؤدي إلى حوادث قاتلة. يُعزى بعض هذه الفشلات إلى ندرة بيانات التدريب أو متطلبات حقل الاستقبال للأشياء الكبيرة. في هذا البحث، نسلط الضوء على مشكلة التعميم للأشياء الكبيرة التي لم يتم دراستها بشكل كافٍ. وجدنا أن الكاشفات الأمامية الحديثة تواجه صعوبة في التعميم للأشياء الكبيرة حتى على المجموعات的数据集几乎平衡的情况下也是如此。我们认为,失败的原因在于深度回归损失对较大物体噪声的敏感性。为了弥合这一差距,我们全面研究了回归损失和骰子损失(Dice Loss),考察了它们在不同误差水平和物体大小下的鲁棒性。我们从数学上证明,在简化情况下,骰子损失对于大物体的噪声鲁棒性和模型收敛性优于回归损失。基于我们的理论见解,我们提出了SeaBird(鸟瞰视角分割)作为向大物体泛化迈出的第一步。SeaBird有效地将前景物体的鸟瞰视角分割集成到三维检测中,其分割头使用骰子损失进行训练。SeaBird在KITTI-360排行榜上取得了最先进的结果,并在nuScenes排行榜上改进了现有的检测器,特别是在大物体方面。代码和模型位于 https://github.com/abhi1kumar/SeaBird修正后的翻译:الكاشفات ثلاثية الأبعاد أحادية العدسة تحقق أداءً ملحوظًا في السيارات والأشياء الصغيرة. ومع ذلك، يتراجع أداؤها عند التعامل مع الأشياء الكبيرة، مما يؤدي إلى حوادث قاتلة. يُعزى بعض هذه الفشلات إلى ندرة بيانات التدريب أو متطلبات حقل الاستقبال للأشياء الكبيرة. في هذا البحث، نسلط الضوء على مشكلة التعميم للأشياء الكبيرة التي لم يتم دراستها بشكل كافٍ. وجدنا أن الكاشفات الأمامية الحديثة تواجه صعوبة في التعميم للأشياء الكبيرة حتى على مجموعات البيانات المتوازنة تقريبًا. نعتقد أن سبب الفشل هو حساسية خسائر الانحدار العمقي (Depth Regression Losses) للضوضاء المرتبطة بالأشياء الكبيرة. لسد هذه الثغرة، قمنا بدراسة شاملة لخسائر الانحدار وخسارة النرد (Dice Loss)، حيث فحصنا روبوستيتها تحت مستويات مختلفة من الخطأ وأحجام مختلفة من الأشياء. قدمنا البرهان الرياضي على أن خسارة النرد تؤدي إلى روبوستية أفضل ضد الضوضاء وتقارب النموذج للأشياء الكبيرة مقارنة بخسائر الانحدار في حالة مبسّطة. بناءً على رؤيتنا النظرية، اقترحنا نظام SeaBird (Segmentation in Bird's View) كخطوة أولى نحو التعميم للأشياء الكبيرة. يعمل SeaBird على دمج تقنية التقسيم من المنظور الطائر (BEV Segmentation) للكائنات المقدمة في الاكتشاف الثلاثي الأبعاد، حيث يتم تدريب الرأس التقسيمي باستخدام خسارة النرد. حقق SeaBird نتائجًا رائدةً في قائمة KITTI-360 وفي قائمة nuScenes، خاصة فيما يتعلق بالأجسام الكبيرة. يمكن الوصول إلى الشفرة البرمجية والنموذج عبر الرابط: https://github.com/abhi1kumar/SeaBird