HyperAIHyperAI

Command Palette

Search for a command to run...

BEVBert: التدريب المسبق متعدد الوسائط للخرائط للتنقل الموجه باللغة

Dong An Yuankai Qi Yangguang Li Yan Huang Liang Wang Tieniu Tan Jing Shao

الملخص

أظهرت التدريب المسبق على نطاق واسع نتائج واعدة في مهمة التوجيه البصري-اللغوي (VLN). ومع ذلك، فإن معظم الطرق الحالية للتدريب المسبق تعتمد على مناظر متقطعة لتعلم الارتباطات البصرية-اللغوية. وهذا يتطلب من النموذج أن يربط ضمنيًا بين ملاحظات غير كاملة ومتكررة داخل هذه المناظر، مما قد يضر بفهم الوكيل للمساحة. لذلك، نقترح نموذجًا جديدًا للتدريب المسبق يعتمد على الخرائط، ويتميز بالوعي المكاني، ويُستخدم في مهمة VLN. بشكل محدد، نبني خريطة مترية محلية لجمع الملاحظات غير الكاملة بشكل صريح وإزالة التكرارات، في حين نُمَثّل اعتماد التوجيه في خريطة توبولوجية عالمية. يُعد هذا التصميم الهجين متوازنًا في تلبية احتياجات VLN من التفكير قصير الأمد والتخطيط طويل الأمد. ثم، استنادًا إلى الخريطة الهجينة، نصمم إطارًا للتدريب المسبق لتعلم تمثيل متعدد الوسائط للخرائط، مما يعزز التفكير التقاطعي المُدرك للمكان، وبالتالي يُسهّل تحقيق الهدف التوجيهي الموجه باللغة. أظهرت التجارب الواسعة فعالية النهج المبني على الخرائط للتدريب المسبق في VLN، وحقق النهج المقترح أداءً متفوقًا على أربع معايير لـ VLN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp