HyperAIHyperAI
منذ 11 أيام

الشبكة من الأعلى إلى الأسفل: دمج السياق متعدد المقياسات لإكمال المشهد ثلاثي الأبعاد معناويًا

{Hongbo Zhang, Feng Wen, Wanlong Li, Yong liu, Chujuan Zhang, Tianxin Huang, Xuemeng Yang, Hao Zou}
الملخص

يُعد خوارزمية استشعار المشهد ثلاثية الأبعاد الفعّالة عنصراً أساسياً في أنظمة القيادة الذاتية والروبوتات. في هذه الورقة، نركّز على مهمة إكمال المشهد الشمولي، التي تتمثل في تقدير كثافة الحيز (الاحتلال الحجمي) والعلامات الشمولية للأجسام بشكل مشترك. وبما أن بيانات العالم الحقيقي تكون نادرة ومُحَجَّبة، فإن هذه المهمة تمثل تحدياً كبيراً. نقترح إطاراً جديداً يُسمّى شبكة الأعلى إلى الأسفل (UDNet)، لإنجاز إكمال المشهد الشمولي على نطاق واسع باستخدام بنية مشفرة-مُفكّكة (encoder-decoder) للشبكات المكعبية (Voxel grids). يُمكن للكتلة الجديدة "من الأعلى إلى الأسفل" جمع معلومات السياق متعددة المقاييس بشكل فعّال، مما يُحسّن اتساق التسمية، كما نستخدم وحدة التجميع الهرمي المُسافَر (Atrous Spatial Pyramid Pooling) لتوسيع مجال الاستقبال مع الحفاظ على المعلومات الهندسية الدقيقة. علاوةً على ذلك، فإن آلية الدمج متعددة المقاييس المُقترحة تُجمّع بشكل فعّال معلومات الخلفية العالمية، وتحسّن دقة إكمال التسمية الشمولية. بالإضافة إلى ذلك، لاستيفاء احتياجات مهام مختلفة، يمكن لشبكة UDNet إنجاز إكمال شمولي متعدد الدقة، ما يتيح إكمالاً أسرع ولكن أقل دقة. تُظهر التجارب التفصيلية في معيار إكمال المشهد الشمولي (SemanticKITTI) أن الإطار المقترح يتفوق على الطرق الحديثة (state-of-the-art) بفارق ملحوظ، مع سرعة استنتاج في الزمن الحقيقي، وذلك باستخدام شبكة مكعبية (Voxel grids) كمدخل فقط.

الشبكة من الأعلى إلى الأسفل: دمج السياق متعدد المقياسات لإكمال المشهد ثلاثي الأبعاد معناويًا | أحدث الأوراق البحثية | HyperAI