نهج تجميع متعدد الوسائط للتنقل الداخلي القائم على الرؤية والصوت مع الذاكرة باستخدام التعلم المتعدد

الرؤية والصوت هما مفتان أساسيان لتفاعل وكالات الروبوتات وتعلّمها. في هذه الورقة، نقدّم نموذجًا جديدًا للتنقل الداخلي يُسمّى "التنقل الداخلي بالرؤية والصوت ذات الذاكرة" (MVV-IN)، الذي يتلقّى أوامر صوتية ويحلّل المعلومات متعددة الوسائط المستمدة من الملاحظات البصرية لتعزيز فهم الروبوت للبيئة المحيطة. نستخدم صورًا ملونة فردية (RGB) تم التقاطها بواسطة كاميرا منظور أول (monocular) من منظور أول. كما نطبّق آلية الانتباه الذاتي (self-attention) للحفاظ على تركيز الوكيل على المناطق الأساسية. تُعد الذاكرة مهمة جدًا لتمكين الوكيل من تجنّب إجراء مهام معينة بشكل متكرر دون داعٍ، وتمكينه من التكيّف بشكل كافٍ مع المشاهد الجديدة، لذا نعتمد تقنية التعلّم التوليدي (meta-learning). قمنا بتجريب مجموعة متنوعة من الميزات الوظيفية المستخلصة من الملاحظات البصرية. وثبتت التجارب المقارنة أن منهجياتنا تتفوّق على النماذج الرائدة الحالية (state-of-the-art baselines).