ناف-آر1: الاستدلال والتنقل في المشاهد الممثّلة

تتطلب الملاحة المُدرَكة من الوكالات دمج الإدراك والاستنتاج والفعل لتحقيق تفاعل قوي في البيئات ثلاثية الأبعاد المعقدة. وغالبًا ما تعاني الطرق الحالية من آثار استنتاج غير متماسكة وغير مستقرة، مما يعيق القدرة على التعميم عبر بيئات متنوعة، كما تواجه صعوبة في تحقيق التوازن بين الاستنتاج المعنى على المدى الطويل والتحكم عالي السرعة المطلوب للتنقل في الزمن الفعلي. ولحل هذه التحديات، نقترح نموذج "ناف-آر1" (Nav-R1)، وهو نموذج أساسي مُدرَك يوحّد عملية الاستنتاج في البيئات المُدرَكة. أولاً، نُنشئ مجموعة بيانات كبيرة بعنوان "ناف-كو-تي-110ك" (Nav-CoT-110K)، تتضمن سلسلة خطوات متسلسلة من التفكير التماثلي (CoT) لمهام الملاحة المُدرَكة، مما يتيح بدء التشغيل من الصفر باستخدام استنتاج منظم. وبنيانًا على هذا الأساس، نصمم إطارًا للتعلم بالتعزيز مبني على خوارزمية GRPO، يعتمد على ثلاث مكافآت مكملة: التنسيق، والفهم، والتنقل، بهدف تحسين الالتزام الهيكلي، والأساس المعنوي، ودقة المسار. علاوةً على ذلك، نقدّم نموذج استنتاج "سريع داخل بطيء" (Fast-in-Slow reasoning)، الذي يفصل بين التفكير المعنوي المتعمّد والتحكم التفاعلي عالي السرعة، لتحقيق تنقل فعّال وموحّد في آنٍ واحد. وتبين التقييمات الواسعة على معايير الذكاء الاصطناعي المُدرَك أن ناف-آر1 يتفوّق باستمرار على النماذج القوية السابقة، مع تحسين متوسط يتجاوز 8% في أداء الاستنتاج والتنقل. كما تؤكد التجارب الواقعية على روبوت متنقّل موثوقية النموذج في ظل موارد محدودة على متن الجهاز. الكود: هذا الرابط. الموقع الإلكتروني: هذا الرابط.