UniDet3D: كشف ثلاثي الأبعاد للأشياء في البيئة الداخلية متعدد المجموعات

تزايد الطلب المتزايد من العملاء على حلول ذكية في مجالات الروبوتات والواقع المعزز قد جذب انتباهًا كبيرًا نحو الكشف عن الأجسام ثلاثية الأبعاد من السحابات النقطية. ومع ذلك، فإن المجموعات المتاحة حاليًا من البيانات الداخلية، عند أخذها بشكل منفصل، تكون صغيرة جدًا وغير متنوعة بما يكفي لتدريب نموذج قوي وعام للكشف عن الأجسام ثلاثية الأبعاد. وفي الوقت نفسه، لا تزال الطرق العامة التي تعتمد على النماذج الأساسية (foundation models) أقل جودة مقارنة بالطرق القائمة على التدريب المراقب لمهام محددة. في هذا العمل، نقترح نموذجًا بسيطًا ولكنه فعّال للكشف عن الأجسام ثلاثية الأبعاد، تم تدريبه على مزيج من مجموعات البيانات الداخلية، ويمكنه العمل بكفاءة في بيئات داخلية متنوعة. من خلال توحيد مساحات التسمية المختلفة، يمكّن النموذج من تعلّم تمثيل قوي عبر عدة مجموعات بيانات من خلال نموذج تدريب مشترك مراقب. تم بناء البنية المعمارية المقترحة على أساس مشفر ترانسفورمر بسيط (vanilla transformer encoder)، مما يجعله سهل التشغيل والتعديل وتمديد خط أنابيب التنبؤ للاستخدام العملي. أظهرت التجارب الواسعة تفوق النموذج بشكل ملحوظ على الطرق الحالية للكشف عن الأجسام ثلاثية الأبعاد في 6 معايير داخلية: ScanNet (+1.1 mAP50)، ARKitScenes (+19.4 mAP25)، S3DIS (+9.1 mAP50)، MultiScan (+9.3 mAP50)، 3RScan (+3.2 mAP50)، وScanNet++ (+2.7 mAP50). يمكن الوصول إلى الكود من خلال الرابط: https://github.com/filapro/unidet3d.