نحو تعلم نموذج عام للملاحة المادية

بناء وكيل عام يمكنه التفاعل مع العالم هو الهدف المثير لأنظمة الذكاء الاصطناعي، مما يحفز البحث في مجال التنقل المادي (embodied navigation)، حيث يتطلب الأمر من الوكيل التنقل وفقًا للتعليمات أو الرد على الاستفسارات. رغم التقدم الكبير الذي تحقق، فإن الأعمال السابقة تركز بشكل أساسي على وكلاء محددين بالمهمة وتفتقر إلى قابلية التعميم للمواقف غير المعروفة. مؤخرًا، أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات ملحوظة في مختلف المجالات، وأتاحت فرصة واعدة للتنقل المادي. انطلاقًا من هذا، نقترح أول نموذج عام للتنقل المادي، وهو NaviLLM. يقوم هذا النموذج بتكيف النماذج اللغوية الكبيرة للتنقل المادي من خلال تقديم تعليمات قائمة على الجدول الزمني (schema-based instruction). تسمح التعليمات القائمة على الجدول الزمني بتحويل مهام مختلفة إلى مشاكل إنتاجية بمرنة، مما يوحّد مجموعة واسعة من المهام. هذا الأسلوب يمكّننا من دمج مصادر بيانات متنوعة من مجموعة متنوعة من البيانات في التدريب، مما يزوّد NaviLLM بالقدرات المتعددة اللازمة للتنقل المادي. نقوم بإجراء تجارب واسعة لتقييم أداء نموذجنا وقدرته على التعميم. تظهر نتائج التجارب أن نموذجنا الموحّد حقق أفضل الأداء في CVDN وSOON وScanQA. تحديدًا، يتفوق على الطريقة السابقة الأكثر تقدمًا بنسبة هامة تبلغ 29% في التقدم نحو الهدف في CVDN. بالإضافة إلى ذلك، أثبت نموذجنا أيضًا قوة كبيرة في التعميم وأنتج نتائج مثيرة للإعجاب في المهام غير المعروفة مثل الإجابة عن الأسئلة المادية وإنشاء العناوين ثلاثية الأبعاد (3D captioning).