HyperAIHyperAI

Command Palette

Search for a command to run...

نقل أسلوب النص متعدد الوسائط للتنقل البصري واللغوي في الأماكن المفتوحة

Wanrong Zhu Xin Eric Wang Tsu-Jui Fu An Yan Pradyumna Narayana Kazoo Sone Sugato Basu William Yang Wang

الملخص

إحدى أكثر المواضيع تحديًا في معالجة اللغة الطبيعية (NLP) هي فهم اللغة والاستدلال المرتبط بالصورة. يُعدّ التوجيه البصري-اللغوي في البيئات الخارجية (VLN) مثالًا على هذه المهمة، حيث يتبع الوكيل تعليمات لغوية طبيعية وينتقل عبر بيئة حضرية حقيقية. وبسبب نقص التعليمات التي تم تannotatingها يدويًا من قبل البشر والتي توضح المشاهد الحضرية المعقدة، يظل التوجيه البصري-اللغوي في البيئات الخارجية مهمة صعبة الحل. تقدم هذه الورقة منهجية تسمى "نقل نمط النص متعدد الوسائط" (MTST) وتعتمد على موارد خارجية متعددة الوسائط لتخفيف نقص البيانات في مهام التوجيه الخارجي. نقوم أولاً بتعزيز بيانات التوجيه من خلال نقل نمط التعليمات التي تولّدها واجهة برمجة تطبيقات Google Maps، ثم نُدرّب مُوجّه التوجيه مسبقًا باستخدام مجموعة بيانات خارجية موسّعة للتنقل في البيئات الخارجية. تُظهر النتائج التجريبية أن منهجية MTST لا تعتمد على النموذج (model-agnostic)، وأن أداء منهجية MTST يتفوق بشكل كبير على النماذج الأساسية في مهمة التوجيه البصري-اللغوي في البيئات الخارجية، حيث يرتفع معدل إنجاز المهمة بنسبة 8.7% نسبيًا على مجموعة الاختبار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp