HyperAIHyperAI
منذ 17 أيام

Text2Loc: التموضع في سحابة النقاط ثلاثية الأبعاد من خلال اللغة الطبيعية

Yan Xia, Letian Shi, Zifeng Ding, João F. Henriques, Daniel Cremers
Text2Loc: التموضع في سحابة النقاط ثلاثية الأبعاد من خلال اللغة الطبيعية
الملخص

نعالج مشكلة تحديد المواقع في السحابة ثلاثية الأبعاد بناءً على عدد قليل من الوصفات اللغوية الطبيعية، ونقدّم شبكة عصبية جديدة تُسمى Text2Loc، التي تفسر بشكل كامل العلاقة الدلالية بين النقاط والنص. تتبع Text2Loc نموذجًا تدريجيًا من العام إلى الخاص: بدءًا من التعرف على المكان العالمي باستخدام النص-النقطة، ثم التحديد الدقيق. في مرحلة التعرف على المكان العالمي، يتم التقاط الديناميات العلاقة بين كل إشارة نصية داخل محول هرمي باستخدام تجميع ماكسيموم (HTM)، بينما يُحافظ على التوازن بين الأزواج الموجبة والسالبة من خلال التعلم التبايني بين النص والنقاط. علاوةً على ذلك، نقترح طريقة جديدة لتحديد المواقع الدقيقة دون الحاجة إلى عملية المطابقة (matching-free)، مما يزيل تمامًا الحاجة إلى مطابقة النص مع الكائنات المعقدة، ويكون أخف وزنًا وأسرع وأكثر دقة من الطرق السابقة. أظهرت التجارب الواسعة أن Text2Loc تُحسّن دقة التحديد المكاني بنسبة تصل إلى 2 مرة مقارنة بأحدث الطرق على مجموعة بيانات KITTI360Pose. يمكن الوصول إلى صفحة المشروع لدينا بشكل عام عبر الرابط: \url{https://yan-xia.github.io/projects/text2loc/}.