HyperAIHyperAI

Command Palette

Search for a command to run...

نهج تجميع متعدد الوسائط للتنقل الداخلي القائم على الرؤية والصوت مع الذاكرة باستخدام التعلم المتعدد

Liqi Yan Dongfang Liu Yaoxian Song Changbin Yu

الملخص

الرؤية والصوت هما مفتان أساسيان لتفاعل وكالات الروبوتات وتعلّمها. في هذه الورقة، نقدّم نموذجًا جديدًا للتنقل الداخلي يُسمّى "التنقل الداخلي بالرؤية والصوت ذات الذاكرة" (MVV-IN)، الذي يتلقّى أوامر صوتية ويحلّل المعلومات متعددة الوسائط المستمدة من الملاحظات البصرية لتعزيز فهم الروبوت للبيئة المحيطة. نستخدم صورًا ملونة فردية (RGB) تم التقاطها بواسطة كاميرا منظور أول (monocular) من منظور أول. كما نطبّق آلية الانتباه الذاتي (self-attention) للحفاظ على تركيز الوكيل على المناطق الأساسية. تُعد الذاكرة مهمة جدًا لتمكين الوكيل من تجنّب إجراء مهام معينة بشكل متكرر دون داعٍ، وتمكينه من التكيّف بشكل كافٍ مع المشاهد الجديدة، لذا نعتمد تقنية التعلّم التوليدي (meta-learning). قمنا بتجريب مجموعة متنوعة من الميزات الوظيفية المستخلصة من الملاحظات البصرية. وثبتت التجارب المقارنة أن منهجياتنا تتفوّق على النماذج الرائدة الحالية (state-of-the-art baselines).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp