Text2Pos: التحديد عبر الوسائط المتقاطعة من النص إلى السحابة النقطية

الاتصال بالأجهزة المحمولة والأجهزة المنزلية باستخدام اللغة الطبيعية أصبح شائعًا بشكل متزايد، وله القدرة على أن يصبح أمرًا طبيعيًا في التواصل مع الروبوتات المتنقلة في المستقبل. من أجل تحقيق هذا الهدف، نستعرض في هذا العمل توصيفًا متقاطعًا للغة النصية مع السحابة النقطية (text-to-point-cloud localization)، والذي سيتيح لنا تحديد مواقع مثل مكان استلام المركبة أو تسليم البضائع. وتحديدًا، نقترح نموذج Text2Pos، وهو وحدة توصيف متقاطعة تتعلم محاذاة الوصف النصي مع مؤشرات الموضع بطريقة من الخشنة إلى الدقيقة. ومع إعطاء سحابة نقطية للبيئة، يقوم Text2Pos بتحديد الموضع المحدد عبر وصف نصي طبيعي للبيئة المحيطة. ولتدريب نموذج Text2Pos ودراسة أداؤه، نُنشئ KITTI360Pose، وهي أول مجموعة بيانات لهذا المهمة، مبنية على مجموعة بيانات KITTI360 التي تم إدخالها حديثًا. تُظهر تجاربنا أننا نستطيع تحديد موقع 65٪ من الاستعلامات النصية ضمن مسافة 15 مترًا من الموقع المطلوب، عند احتساب أفضل 10 مواقع تم استرجاعها. يُعد هذا الناتج نقطة بداية نأمل أن يُشعل تطورات مستقبلية نحو التنقل القائم على اللغة.