HyperAIHyperAI

Command Palette

Search for a command to run...

EffoVPR: الاستخدام الفعّال للنموذج الأساسي في التعرف على المكان البصري

الملخص

إن مهمة التعرف على المكان البصري (VPR) تتمثل في التنبؤ بموقع صورة استعلام من قاعدة بيانات تحتوي على صور مُعدّة بعلامات جغرافية. وقد أبرزت الدراسات الحديثة في مجال VPR الميزة الكبيرة لاستخدام النماذج الأساسية المُدرّبة مسبقًا، مثل DINOv2، في مهام VPR. ومع ذلك، تُعتبر هذه النماذج غالبًا غير كافية لمهام VPR دون تدريب دقيق إضافي على بيانات مخصصة لـ VPR. في هذه الورقة، نقدّم منهجية فعّالة لاستغلال الإمكانات الكامنة في النموذج الأساسي لمهام VPR. ونُظهر أن الميزات المستخرجة من طبقات الانتباه الذاتي (self-attention layers) يمكن أن تؤدي دور مُعدّل إعادة ترتيب قوي (re-ranker) لـ VPR، حتى في البيئة الصفرية (zero-shot). ويتفوق منهجنا على الأساليب الصفرية السابقة، ويوفر نتائج تنافسية مع العديد من الأساليب المُدرّبة تحت إشراف. ثم نُظهر أن نهجًا أحادي المرحلة يستخدم طبقات ViT الداخلية لاستخلاص الميزات العالمية يمكنه تحقيق أداءً يُعدّ من أفضل الأداءات الحالية، مع كثافة مميزة للسمات تصل إلى 128 بعدًا فقط. علاوةً على ذلك، فإن دمج ميزات النموذج الأساسي المحلية لغرض إعادة الترتيب يُعمّق هذا الفجوة في الأداء. كما تُظهر طريقة العمل لدينا مقاومة استثنائية والتعميم الجيد، مما يُسجّل أداءً جديدًا على مستوى الدولة (state-of-the-art)، مع القدرة على التعامل مع ظروف صعبة مثل الاحتجاز (الإغلاق)، والانتقال بين النهار والليل، والتغيرات الموسمية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp