HyperAIHyperAI
منذ 2 أشهر

Open-YOLO 3D: نحو التقطيع الثلاثي الأبعاد السريع والدقيق للمفردات المفتوحة

Boudjoghra, Mohamed El Amine ; Dai, Angela ; Lahoud, Jean ; Cholakkal, Hisham ; Anwer, Rao Muhammad ; Khan, Salman ; Khan, Fahad Shahbaz
Open-YOLO 3D: نحو التقطيع الثلاثي الأبعاد السريع والدقيق للمفردات المفتوحة
الملخص

الدراسات الحديثة في مجال تقسيم الحالات ثلاثية الأبعاد المفتوحة للمفردات تظهر وعودًا قوية، ولكن على حساب سرعة الاستدلال البطيئة والمتطلبات الحاسوبية العالية. عادةً ما يكون هذا التكلفة الحاسوبية العالية ناجمًا عن الاعتماد الشديد على ميزات الفيديو ثلاثي الأبعاد (3D clip features)، والتي تتطلب نماذج أساسية ثنائية الأبعاد مكلفة من الناحية الحاسوبية مثل Segment Anything (SAM) وCLIP لدمج البيانات متعددة الآراء إلى ثلاثة أبعاد. نتيجة لذلك، فإن هذا يعيق قابلية تطبيقها في العديد من التطبيقات الواقعية التي تتطلب توقعات دقيقة وسريعة. بناءً على ذلك، نقترح نهجًا سريعًا ومعتمدًا للتقسيم الثلاثي الأبعاد المفتوح للمفردات، باسم Open-YOLO 3D، يستخدم بكفاءة الكشف عن الأجسام ثنائية الأبعاد فقط من الصور RGB متعددة الآراء للتقسيم الثلاثي الأبعاد المفتوح للمفردات. نعالج هذه المهمة بإنشاء أقنعة ثلاثية الأبعاد غير مرتبطة بالفئة للأجسام في المشهد وربطها بدعوات النص. نلاحظ أن إسقاط حالات السحابة النقطية ثلاثية الأبعاد غير المرتبطة بالفئة يحتوي بالفعل على معلومات الحالة؛ وبالتالي، قد يؤدي استخدام SAM إلى تكرار غير ضروري يزيد بشكل غير مبرر من وقت الاستدلال. لقد اكتشفنا تجريبيًا أنه يمكن تحقيق أداء أفضل في ربط دعوات النص بالأقنعة ثلاثية الأبعاد بطريقة أسرع باستخدام كاشف الأجسام ثنائي الأبعاد. نتحقق من صحة Open-YOLO 3D الخاص بنا على مقاييسين: ScanNet200 وReplica، تحت سيناريوهين: (i) مع أقنعة الحقيقة الأرضية، حيث تكون التسميات ضرورية لمقترحات الجسم المعطاة، و(ii) مع مقترحات ثلاثية الأبعاد غير مرتبطة بالفئة تم إنشاؤها بواسطة شبكة مقترحات ثلاثية الأبعاد. يحقق Open-YOLO 3D الخاص بنا أفضل مستوى أداء حاليًا على كلتا مجموعة البيانات بينما يحصل على تسريع يصل إلى حوالي 16 مرة مقارنة بأفضل طريقة موجودة في الأدب العلمي. على مجموعة اختبار ScanNet200 val، يحقق Open-YOLO 3D دقة الوسط المتوسطة (mAP) بنسبة 24.7٪ بينما يعمل بمعدل 22 ثانية لكل مشهد. الرمز والنموذج متوفرون على github.com/aminebdj/OpenYOLO3D.

Open-YOLO 3D: نحو التقطيع الثلاثي الأبعاد السريع والدقيق للمفردات المفتوحة | أحدث الأوراق البحثية | HyperAI