Command Palette
Search for a command to run...
MapTrace: توليد بيانات قابل للتوسع لتتبع المسارات على الخرائط
MapTrace: توليد بيانات قابل للتوسع لتتبع المسارات على الخرائط
Artemis Panagopoulou Aveek Purohit Achin Kulshrestha Soroosh Yazdani Mohit Goyal
Abstract
على الرغم من تحقيق النماذج الكبيرة متعددة الوسائط للغة بأداء يشبه الأداء البشري في العديد من المهام المتعلقة بالاستدلال البصري والنصي، إلا أن كفاءتها في الفهم المكاني الدقيق، مثل تتبع المسارات على الخرائط، لا تزال محدودة. على عكس البشر، الذين يمكنهم تعلُّم تحليل الخرائط وتنقلها بسرعة، تفشل النماذج الحالية في احترام القيود الأساسية على المسارات، ويرجع ذلك جزئيًا إلى التكلفة الباهظة وصعوبة جمع مجموعات بيانات ضخمة ومُحدَّدة بدقة على مستوى البكسل لتوثيق المسارات. ولحل هذه المشكلة، نقدّم نموذجًا قابلاً للتوسع لإنشاء بيانات اصطناعية، يستخدم صور خرائط اصطناعية وتحليلًا على مستوى البكسل، بهدف إنتاج توثيق دقيق تلقائيًا لهذه المهمة الصعبة. باستخدام هذا النموذج، نُنشئ مجموعة بيانات للتدريب المُعدِّل تضم 23 ألف عينة مسار على 4 آلاف خريطة، مما يمكّن النماذج من اكتساب قدرات مكانيّة أكثر تشابهًا مع البشر. وباستخدام هذه المجموعة، نُدرّب نماذج متعددة الوسائط للغة مفتوحة المصدر ومقيدة بالملكية. وتُظهر النتائج على معيار MapBench تحسّنًا ملحوظًا في المرونة، حيث ارتفع معدل النجاح بنسبة تصل إلى 6.4 نقطة، مع تقليل خطأ تتبع المسارات (NDTW). تُبرز هذه النتائج أن القدرة على الاستدلال المكاني الدقيق، التي تفتقر إليها النماذج المُدرّبة مسبقًا، يمكن تعليمها صراحةً باستخدام إشراف اصطناعي.