HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 5 أيام
LLM
توليد الصور

MapTrace: توليد بيانات قابل للتوسع لتتبع المسارات على الخرائط

Artemis Panagopoulou Aveek Purohit Achin Kulshrestha Soroosh Yazdani Mohit Goyal

Abstract

على الرغم من تحقيق النماذج الكبيرة متعددة الوسائط للغة بأداء يشبه الأداء البشري في العديد من المهام المتعلقة بالاستدلال البصري والنصي، إلا أن كفاءتها في الفهم المكاني الدقيق، مثل تتبع المسارات على الخرائط، لا تزال محدودة. على عكس البشر، الذين يمكنهم تعلُّم تحليل الخرائط وتنقلها بسرعة، تفشل النماذج الحالية في احترام القيود الأساسية على المسارات، ويرجع ذلك جزئيًا إلى التكلفة الباهظة وصعوبة جمع مجموعات بيانات ضخمة ومُحدَّدة بدقة على مستوى البكسل لتوثيق المسارات. ولحل هذه المشكلة، نقدّم نموذجًا قابلاً للتوسع لإنشاء بيانات اصطناعية، يستخدم صور خرائط اصطناعية وتحليلًا على مستوى البكسل، بهدف إنتاج توثيق دقيق تلقائيًا لهذه المهمة الصعبة. باستخدام هذا النموذج، نُنشئ مجموعة بيانات للتدريب المُعدِّل تضم 23 ألف عينة مسار على 4 آلاف خريطة، مما يمكّن النماذج من اكتساب قدرات مكانيّة أكثر تشابهًا مع البشر. وباستخدام هذه المجموعة، نُدرّب نماذج متعددة الوسائط للغة مفتوحة المصدر ومقيدة بالملكية. وتُظهر النتائج على معيار MapBench تحسّنًا ملحوظًا في المرونة، حيث ارتفع معدل النجاح بنسبة تصل إلى 6.4 نقطة، مع تقليل خطأ تتبع المسارات (NDTW). تُبرز هذه النتائج أن القدرة على الاستدلال المكاني الدقيق، التي تفتقر إليها النماذج المُدرّبة مسبقًا، يمكن تعليمها صراحةً باستخدام إشراف اصطناعي.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp