HyperAIHyperAI
منذ 2 أشهر

AsymFormer: تعلم التمثيل العابر للنمط غير المتماثل للفصل الدلالي الزمني الحقيقي للصورة ثلاثية الأبعاد والصورة ثنائية الأبعاد على منصة الهاتف المحمول

Siqi Du; Weixi Wang; Renzhong Guo; Ruisheng Wang; Yibin Tian; Shengjun Tang
AsymFormer: تعلم التمثيل العابر للنمط غير المتماثل للفصل الدلالي الزمني الحقيقي للصورة ثلاثية الأبعاد والصورة ثنائية الأبعاد على منصة الهاتف المحمول
الملخص

فهم المشاهد الداخلية أمر حاسم للدراسات الحضرية. نظرًا لطبيعة البيئات الداخلية الديناميكية، تتطلب التجزئة الدلالية الفعالة التشغيل في الوقت الحقيقي والدقة العالية. لمعالجة هذا، نقترح AsymFormer، شبكة جديدة تحسن دقة التجزئة الدلالية في الوقت الحقيقي باستخدام معلومات متعددة الأوضاع من نوع RGB-D دون زيادة كبيرة في تعقيد الشبكة. يستخدم AsymFormer هيكلًا أساسيًا غير متماثل لاستخراج الميزات المتعددة الأوضاع، مما يقلل من المعلمات الزائدة عن طريق تحسين توزيع الموارد الحسابية. لدمج الميزات غير المتماثلة المتعددة الأوضاع، يتم استخدام وحدة اختيار الميزات بقيادة الانتباه المحلي (LAFS) لدمج الميزات انتقائيًا من أوضاع مختلفة من خلال استغلال ارتباطاتها. بعد ذلك، تم تقديم وحدة دمج ارتباط الميزات بقيادة الانتباه بين الأوضاع (CMA) لاستخراج المزيد من التمثيلات بين الأوضاع. يظهر AsymFormer نتائج تنافسية بنسبة 54.1% mIoU على NYUv2 ونسبة 49.1% mIoU على SUNRGBD. وبشكل ملحوظ، يصل AsymFormer إلى سرعة استدلال تبلغ 65 إطارًا في الثانية (79 إطارًا في الثانية بعد تنفيذ كمية الدقة المختلطة) على بطاقات الرسوم RTX3090، مما يثبت أن AsymFormer يمكنه تحقيق التوازن بين الدقة العالية والكفاءة.

AsymFormer: تعلم التمثيل العابر للنمط غير المتماثل للفصل الدلالي الزمني الحقيقي للصورة ثلاثية الأبعاد والصورة ثنائية الأبعاد على منصة الهاتف المحمول | أحدث الأوراق البحثية | HyperAI