M3DeTR: كشف ثلاثي الأبعاد للأشياء متعدد التمثيلات، متعدد المقاييس، وذو علاقة متبادلة باستخدام المحولات

نقدم معمارية جديدة للكشف عن الأجسام ثلاثية الأبعاد تُدعى M3DeTR، والتي تدمج تمثيلات مختلفة لسحوبات النقاط (النقاط الخام، والبُكَسِلز، والمنظور من الأعلى) مع مقاييس ميزات متعددة مستندة إلى هياكل هرمية متعددة المقاييس. تعد M3DeTR أول منهجية توحد تمثيلات متعددة لسحوبات النقاط، ومقاييس الميزات، فضلاً عن نمذجة العلاقات المتبادلة بين سحوبات النقاط في آن واحد باستخدام نماذج المحولات (Transformers). قمنا بإجراء تجارب تحليلية مكثفة تُبرز فوائد دمج التمثيلات والمقاييس، ونمذجة العلاقات. حققت طريقةنا أداءً يُعدّ من الأفضل في مجاله على مجموعة بيانات كيتي للكشف عن الأجسام ثلاثية الأبعاد وبيانات وايماو المفتوحة. تُظهر النتائج أن M3DeTR تحسن بشكل ملحوظ من الأداء الأساسي بنسبة 1.48% في مقياس mAP لجميع الفئات على بيانات وايماو المفتوحة. وبشكل خاص، تُصنف طريقتنا في المرتبة الأولى في معيار كيتي الشهير للكشف عن الأجسام ثلاثية الأبعاد لكل من فئتي السيارات والدراجين، كما تُصنف في المرتبة الأولى على بيانات وايماو المفتوحة باستخدام إدخال نقطة واحدة فقط. يمكن الوصول إلى الكود عبر: https://github.com/rayguan97/M3DETR.