HyperAIHyperAI
منذ 2 أشهر

FLAME: تعلم التنقل باستخدام نماذج اللغة المتعددة الأوضاع في البيئات الحضرية

Yunzhe Xu; Yiyuan Pan; Zhe Liu; Hesheng Wang
FLAME: تعلم التنقل باستخدام نماذج اللغة المتعددة الأوضاع في البيئات الحضرية
الملخص

أظهرت نماذج اللغات الكبيرة (LLMs) إمكاناتها في مهام التنقل البصري واللغوي (VLN)، ومع ذلك تواجه التطبيقات الحالية تحديات. بينما تتفوق هذه النماذج في سيناريوهات المحادثة العامة، فإنها تعاني من صعوبات في المهام التخصصية للتنقل، مما يؤدي إلى أداء غير مثالي مقارنة بنماذج VLN المتخصصة. نقدم FLAME (وهو عميل ومعمارية مصممة على أساس FLAMingo)، وهو عميل وبنية جديدة تعتمد على نموذج لغة متعدد الوسائط (Multimodal LLM) مصمم خصيصًا لمهمات VLN الحضرية التي تعالج الملاحظات المتعددة بكفاءة. يُطبق نهجنا تقنية ضبط ثلاثي الأطوار لتكيف فعال مع مهام التنقل، بما في ذلك ضبط الإدراك الفردي لوصف المناظر الشارعية، وضبط الإدراك المتعدد لتلخيص المسارات، والتدريب من البداية إلى النهاية على قواعد بيانات VLN. يتم تركيب قواعد البيانات المعززة تلقائيًا. تُظهر النتائج التجريبية تفوق FLAME على الأساليب الموجودة، حيث يتجاوز طرق الحالة الفنية بزيادة بنسبة 7.3% في إكمال المهمة على مجموعة بيانات Touchdown. يبرز هذا العمل إمكانات نماذج اللغات المتعددة الوسائط (MLLMs) في مهمات التنقل المعقدة، مما يمثل تقدمًا نحو تطبيقات MLLMs في مجال الذكاء الجسدي.

FLAME: تعلم التنقل باستخدام نماذج اللغة المتعددة الأوضاع في البيئات الحضرية | أحدث الأوراق البحثية | HyperAI