HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer متعدد الوسائط عارف بالتاريخ للتنقل البصري واللغوي

Shizhe Chen Pierre-Louis Guhur Cordelia Schmid Ivan Laptev

الملخص

تهدف الملاحة البصرية واللغوية (VLN) إلى بناء وكالات بصرية مستقلة قادرة على اتباع التعليمات والتنقل في المشاهد الحقيقية. ولحفظ المواقع التي تم زيارتها سابقًا والإجراءات التي تم اتخاذها، تُطبّق معظم النهج المتبعة في VLN ذاكرة باستخدام حالات متكررة. بدلًا من ذلك، نقدّم نموذجًا متعدد الوسائط مُدركًا للتاريخ (HAMT) لدمج تاريخ طويل المدى في اتخاذ القرارات متعددة الوسائط. يُشفّر HAMT بشكل فعّال جميع الملاحظات البيانية السابقة عبر نموذج تحويل البصرية الهرمي (ViT)، والذي يُشفّر أولًا الصور الفردية باستخدام ViT، ثم يُنمذج العلاقات المكانية بين الصور ضمن ملاحظة بيانية واحدة، وأخيرًا يأخذ بعين الاعتبار العلاقات الزمنية بين الصور البيانية في التاريخ. ثم، يدمج HAMT بشكل مشترك بين النص والذاكرة والملاحظة الحالية للتنبؤ بالعملية التالية. نقوم أولًا بتدريب HAMT بشكل كامل (end-to-end) باستخدام عدة مهام بديلة، منها تنبؤ العملة في خطوة واحدة وتنبؤ العلاقات المكانية، ثم نستخدم التعلم التعزيزي لتحسين سياسة التنقل بشكل إضافي. يحقّق HAMT أداءً جديدًا على مستوى الحد الأقصى في مجموعة واسعة من مهام VLN، بما في ذلك VLN مع تعليمات دقيقة (R2R، RxR)، وتعليمات عالية المستوى (R2R-Last، REVERIE)، والمحادثات (CVDN)، وكذلك VLN بفترة طويلة (R4R، R2R-Back). ونُظهر أن HAMT يكون فعّالًا بشكل خاص في مهام التنقل التي تتطلب مسارات أطول.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp