نقل أسلوب النص متعدد الوسائط للتنقل البصري واللغوي في الأماكن المفتوحة

إحدى أكثر المواضيع تحديًا في معالجة اللغة الطبيعية (NLP) هي فهم اللغة والاستدلال المرتبط بالصورة. يُعدّ التوجيه البصري-اللغوي في البيئات الخارجية (VLN) مثالًا على هذه المهمة، حيث يتبع الوكيل تعليمات لغوية طبيعية وينتقل عبر بيئة حضرية حقيقية. وبسبب نقص التعليمات التي تم تannotatingها يدويًا من قبل البشر والتي توضح المشاهد الحضرية المعقدة، يظل التوجيه البصري-اللغوي في البيئات الخارجية مهمة صعبة الحل. تقدم هذه الورقة منهجية تسمى "نقل نمط النص متعدد الوسائط" (MTST) وتعتمد على موارد خارجية متعددة الوسائط لتخفيف نقص البيانات في مهام التوجيه الخارجي. نقوم أولاً بتعزيز بيانات التوجيه من خلال نقل نمط التعليمات التي تولّدها واجهة برمجة تطبيقات Google Maps، ثم نُدرّب مُوجّه التوجيه مسبقًا باستخدام مجموعة بيانات خارجية موسّعة للتنقل في البيئات الخارجية. تُظهر النتائج التجريبية أن منهجية MTST لا تعتمد على النموذج (model-agnostic)، وأن أداء منهجية MTST يتفوق بشكل كبير على النماذج الأساسية في مهمة التوجيه البصري-اللغوي في البيئات الخارجية، حيث يرتفع معدل إنجاز المهمة بنسبة 8.7% نسبيًا على مجموعة الاختبار.