التعلم من البيئات ثلاثية الأبعاد غير المُعلَّمة لتصوّر وتنقل اللغة

في الملاحة البصرية واللغوية (VLN)، يُطلب من وكيل مُدمج التوجّه في بيئات ثلاثية الأبعاد واقعية تبعًا لتعليمات لغوية طبيعية. أحد العوائق الرئيسية أمام النماذج الحالية في VLN هو نقص البيانات التدريبية الكافية، مما يؤدي إلى أداء غير راضٍ في التعميم على بيئات غير مرئية. في حين أن بيانات VLN تُجمع عادةً يدويًا، فإن هذا النهج مكلف جدًا ويُحد من قابلية التوسع. في هذه الدراسة، نعالج مشكلة نقص البيانات من خلال اقتراح إنشاء مجموعة بيانات VLN على نطاق واسع تلقائيًا من 900 مبنى ثلاثي الأبعاد غير مُعلَّمة من مجموعة HM3D. نُنشئ رسمًا توجيهيًا للتنقل لكل مبنى، ثم نُحول تنبؤات الكائنات من الصور ثنائية الأبعاد إلى تسميات كائنية ثلاثية الأبعاد افتراضية باستخدام اتساق الرؤية المتقاطعة. بعد ذلك، نُعدّل نموذج لغوي مُدرّب مسبقًا باستخدام التسميات الافتراضية للكائنات كمُحفّزات لتقليل الفجوة بين الوسائط في توليد التعليمات. تُشكّل مجموعة البيانات الناتجة، HM3D-AutoVLN، أكبر بعشر مرات من المجموعات الحالية في VLN من حيث عدد البيئات للتنقل وعدد التعليمات. ونُظهر تجريبيًا أن HM3D-AutoVLN تُحسّن بشكل كبير قدرة النماذج الناتجة في VLN على التعميم. وعلى معيار SPL، تتفوّق طريقةنا على الحد الأقصى الحالي بنسبة 7.1% و8.1% على مجموعتي التحقق غير المرئية من REVERIE وSOON على التوالي.