HyperAIHyperAI

Command Palette

Search for a command to run...

FLAME: تعلم التنقل باستخدام نماذج اللغة المتعددة الأوضاع في البيئات الحضرية

Yunzhe Xu Yiyuan Pan Zhe Liu Hesheng Wang

الملخص

أظهرت نماذج اللغات الكبيرة (LLMs) إمكاناتها في مهام التنقل البصري واللغوي (VLN)، ومع ذلك تواجه التطبيقات الحالية تحديات. بينما تتفوق هذه النماذج في سيناريوهات المحادثة العامة، فإنها تعاني من صعوبات في المهام التخصصية للتنقل، مما يؤدي إلى أداء غير مثالي مقارنة بنماذج VLN المتخصصة. نقدم FLAME (وهو عميل ومعمارية مصممة على أساس FLAMingo)، وهو عميل وبنية جديدة تعتمد على نموذج لغة متعدد الوسائط (Multimodal LLM) مصمم خصيصًا لمهمات VLN الحضرية التي تعالج الملاحظات المتعددة بكفاءة. يُطبق نهجنا تقنية ضبط ثلاثي الأطوار لتكيف فعال مع مهام التنقل، بما في ذلك ضبط الإدراك الفردي لوصف المناظر الشارعية، وضبط الإدراك المتعدد لتلخيص المسارات، والتدريب من البداية إلى النهاية على قواعد بيانات VLN. يتم تركيب قواعد البيانات المعززة تلقائيًا. تُظهر النتائج التجريبية تفوق FLAME على الأساليب الموجودة، حيث يتجاوز طرق الحالة الفنية بزيادة بنسبة 7.3% في إكمال المهمة على مجموعة بيانات Touchdown. يبرز هذا العمل إمكانات نماذج اللغات المتعددة الوسائط (MLLMs) في مهمات التنقل المعقدة، مما يمثل تقدمًا نحو تطبيقات MLLMs في مجال الذكاء الجسدي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp