HyperAIHyperAI

Command Palette

Search for a command to run...

التحديد النقطي للنص دون حالات مع الوعي بالموضع النسبي

Lichao Wang Zhihao Yuan Jinke Ren Shuguang Cui Zhen Li

الملخص

الاستعلام المتقاطع بين النص والسحب النقطية (Text-to-point-cloud cross-modal localization) هو مهمة بصرية-لغوية ناشئة ذات أهمية حاسمة للتعاون بين الروبوتات والبشر في المستقبل. وتهدف هذه المهمة إلى تحديد موقع معين ضمن مشهد سحبي نقطي على نطاق مدينة، استنادًا إلى عدد قليل من التعليمات باللغة الطبيعية. في هذا البحث، نتناول قاعدتين رئيسيتين من قيود النماذج الحالية: 1) الاعتماد على الكيانات الحقيقية (ground-truth instances) كمدخلات؛ و2) إهمال العلاقات المكانية بين الكيانات المحتملة. يعتمد النموذج المقترح على نموذج ثنائي المراحل، يتضمن مرحلة خشنة لاسترجاع الخلايا النصية، ومرحلة دقيقة لتقدير الموقع. وفي كلا المرحلتين، نُدخل مستخرجًا لاستعلامات الكيانات (instance query extractor)، حيث يتم ترميز الخلايا باستخدام شبكة U-Net ذات تباين ثلاثي الأبعاد نادر (3D sparse convolution U-Net) لاستخلاص ميزات السحب النقطية متعددة المقاييس، وتُستخدم مجموعة من استعلامات التفاعل المتكرر مع هذه الميزات لتمثيل الكيانات. في المرحلة الخشنة، تم تصميم وحدة انتباه ذات وعي بالوضع النسبي الصف-عمود (RowColRPA) لالتقاط العلاقات المكانية بين استعلامات الكيانات. وفي المرحلة الدقيقة، تم تطوير وحدة انتباه متقاطع ذات وعي بالوضع النسبي متعدد الوسائط (RPCA) لدمج ميزات النص والسحب النقطية مع العلاقات المكانية، بهدف تحسين تقدير الموقع بدقة. أظهرت نتائج التجارب على مجموعة بيانات KITTI360Pose أداءً تنافسيًا مع أفضل النماذج الحالية، دون الحاجة إلى استخدام الكيانات الحقيقية كمدخلات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp