التحديد النقطي للنص دون حالات مع الوعي بالموضع النسبي

الاستعلام المتقاطع بين النص والسحب النقطية (Text-to-point-cloud cross-modal localization) هو مهمة بصرية-لغوية ناشئة ذات أهمية حاسمة للتعاون بين الروبوتات والبشر في المستقبل. وتهدف هذه المهمة إلى تحديد موقع معين ضمن مشهد سحبي نقطي على نطاق مدينة، استنادًا إلى عدد قليل من التعليمات باللغة الطبيعية. في هذا البحث، نتناول قاعدتين رئيسيتين من قيود النماذج الحالية: 1) الاعتماد على الكيانات الحقيقية (ground-truth instances) كمدخلات؛ و2) إهمال العلاقات المكانية بين الكيانات المحتملة. يعتمد النموذج المقترح على نموذج ثنائي المراحل، يتضمن مرحلة خشنة لاسترجاع الخلايا النصية، ومرحلة دقيقة لتقدير الموقع. وفي كلا المرحلتين، نُدخل مستخرجًا لاستعلامات الكيانات (instance query extractor)، حيث يتم ترميز الخلايا باستخدام شبكة U-Net ذات تباين ثلاثي الأبعاد نادر (3D sparse convolution U-Net) لاستخلاص ميزات السحب النقطية متعددة المقاييس، وتُستخدم مجموعة من استعلامات التفاعل المتكرر مع هذه الميزات لتمثيل الكيانات. في المرحلة الخشنة، تم تصميم وحدة انتباه ذات وعي بالوضع النسبي الصف-عمود (RowColRPA) لالتقاط العلاقات المكانية بين استعلامات الكيانات. وفي المرحلة الدقيقة، تم تطوير وحدة انتباه متقاطع ذات وعي بالوضع النسبي متعدد الوسائط (RPCA) لدمج ميزات النص والسحب النقطية مع العلاقات المكانية، بهدف تحسين تقدير الموقع بدقة. أظهرت نتائج التجارب على مجموعة بيانات KITTI360Pose أداءً تنافسيًا مع أفضل النماذج الحالية، دون الحاجة إلى استخدام الكيانات الحقيقية كمدخلات.