HyperAIHyperAI
منذ 2 أشهر

رحلة العميل وراء RGB: كشف التمثيلات البيئية الهجينة الدلالية-المكانية للملاحة البصرية واللغوية

Xuesong Zhang; Yunbo Xu; Jia Li; Zhenzhen Hu; Richnag Hong
رحلة العميل وراء RGB: كشف التمثيلات البيئية الهجينة الدلالية-المكانية للملاحة البصرية واللغوية
الملخص

الملاحة في بيئات غير معروفة بناءً على تعليمات اللغة الطبيعية تظل صعبة بالنسبة للوكلاء المركزين على الذات في مجال الملاحة المرتبطة بالرؤية واللغة (VLN). تعتمد النهج الحالية بشكل أساسي على الصور RGB لتمثيل البيئة، مما يؤدي إلى الاستخدام غير الكافي للمعلومات الدلالية والمكانية الضمنية في النصوص وترك الفجوة بين الأشكال المختلفة للتعليمات والتمثيلات البيئية النادرة دون حل. بشكل حدسي، يربط البشر معرفتهم الدلالية بشكل طبيعي بالتصاميم المكانية أثناء الملاحة الداخلية. مستوحى من هذا، نقترح هندسة متعددة الاستخدامات تسمى فهم الدلالة وإدراك المكان (SUSA) لتحفيز الوكلاء على ربط البيئة من وجهات نظر متنوعة. يتضمن SUSA وحدة فهم الدلالة النصية (TSU)، والتي تضيق الفجوة بين أشكال التعليمات والبيئات من خلال إنشاء وربط وصف المعالم البيئية في محيط الوكيل المباشر. بالإضافة إلى ذلك، هناك وحدة إدراك المكان المعززة بالعمق (DSP) تقوم ببناء خريطة استكشاف العمق تدريجيًا، مما يمكّن من فهم أكثر دقة للتصاميم البيئية. تظهر التجارب أن التمثيلات الهجينة الدلالية-المكانية التي يقدمها SUSA تحسن أداء الملاحة بشكل فعال، وتضع سجلات جديدة لأفضل الأداء في ثلاثة مقاييس للملاحة المرتبطة بالرؤية واللغة (REVERIE، R2R، وSOON). سيتم جعل الكود المصدر متاحًا للعامة.

رحلة العميل وراء RGB: كشف التمثيلات البيئية الهجينة الدلالية-المكانية للملاحة البصرية واللغوية | أحدث الأوراق البحثية | HyperAI