HyperAIHyperAI

Command Palette

Search for a command to run...

سياق وجغرافيا مُدركان في محول الفوكسل لاستكمال المشهد الدلالي

Zhu Yu Runmin Zhang Jiacheng Ying Junchen Yu Xiaohai Hu Lun Luo Si-Yuan Cao Hui-Liang Shen

الملخص

الاستكمال الدلالي للمشهد المستند إلى الرؤية (SSC) حظي باهتمام كبير بسبب تطبيقاته الواسعة في مهام الإدراك ثلاثية الأبعاد المتنوعة. تستخدم النماذج الحالية التي تقوم بتحويل البيانات من نادرة إلى كثيفة عادةً استعلامات مستقلة عن السياق مشتركة عبر صور الإدخال المختلفة، مما يفشل في التقاط الاختلافات بينها حيث تتغير المناطق البؤرية للادخالات المختلفة وقد يؤدي ذلك إلى تجميع خصائص غير موجه عبر الانتباه المتقاطع. بالإضافة إلى ذلك، قد يؤدي عدم وجود معلومات العمق إلى نقاط تم إسقاطها على مستوى الصورة ومشاركتها لنفس الموقع ثنائي الأبعاد أو نقاط العينة المشابهة في الخريطة المميزة، مما يؤدي إلى غموض العمق. في هذا البحث، نقدم محول فوكسل جديد يدرك السياق والهندسة. يستخدم هذا المحول مولد استعلامات يدرك السياق لتوفير استعلامات تعتمد على السياق وتتناسب مع كل صورة إدخال بشكل فردي، مما يتيح التقاط خصائصها الفريدة وتجميع المعلومات داخل المنطقة ذات الاهتمام. علاوة على ذلك، يتم توسيع انتباه التشكيل المتغير من المجال ثنائي الأبعاد إلى المجال ثلاثي الأبعاد للمكعبات البكسلية، مما يمكن من تمييز النقاط ذات الإحداثيات الصورية المشابهة بناءً على إحداثيات عمقها. بناءً على هذا الوحدة، نقدم شبكة عصبية تُسمى CGFormer لتحقيق الاستكمال الدلالي للمشهد. وفي الوقت نفسه، تستفيد CGFormer من تمثيلات ثلاثية الأبعاد متعددة (أي فوكسل و TPV) لتعزيز قدرات التمثيل الدلالي والهندسي للحجم الثلاثي الأبعاد المتحول من وجهات النظر المحلية والعالمية. تظهر النتائج التجريبية أن CGFormer حققت أداءً رائدًا في مقاييس SemanticKITTI و SSCBench-KITTI-360، حيث حققت معدل تقاطع فوق الاتحاد (mIoU) بلغ 16.87 و 20.05 ومعدل تقاطع فوق الاتحاد (IoU) بلغ 45.99 و 48.07 على التوالي. وبشكل ملفت للنظر، حتى تفوقت CGFormer على النماذج التي تستخدم الصور الزمنية كمدخلات أو شبكات صور أكبر بكثير كأساس لها.注释:- "Vision-based Semantic Scene Completion" 翻译为 "الاستكمال الدلالي للمشهد المستند إلى الرؤية"- "Sparse-to-dense" 翻译为 "من نادرة إلى كثيفة"- "Context-aware query generator" 翻译为 "مولد استعلامات يدرك السياق"- "Deformable cross-attention" 翻译为 "انتباه التشكيل المتغير"- "Voxel and TPV" 翻译为 "فوكسل و TPV"(TPV未找到通用的阿拉伯语翻译,因此保留了英文)- "mIoU" 和 "IoU" 直接使用英文缩写,因为它们在科技文献中通常以这种方式出现。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp