HyperAIHyperAI

Command Palette

Search for a command to run...

الجمع عبر النقل الأمثل للتعرف على المواقع البصرية

Sergio Izquierdo Javier Civera

الملخص

تهدف مهمة التعرف على المكان البصري (VPR) إلى مطابقة صورة استعلام مع صور مرجعية من قاعدة بيانات واسعة من الصور المأخوذة من أماكن مختلفة، وذلك بالاعتماد فقط على المؤشرات البصرية. تركز أنظمة الحالة الراهنة على تجميع السمات المستخرجة من هيكل عميق (deep backbone) لتكوين وصفة عالمية لكل صورة. وفي هذا السياق، نقدّم SALAD (خوارزمية سينكيرن للسمات المجمعة محليًا)، التي تعيد صياغة عملية التعيين اللين (soft-assignment) للسمات المحلية إلى مجموعات في NetVLAD كمشكلة نقل مثالي (optimal transport). في SALAD، نأخذ بعين الاعتبار العلاقات بين السمات والمجموعات، وكذلك العلاقات العكسية بين المجموعات والسمات، كما نُدخل ما يُسمى بـ "مجموعة سلة المهملات" (dustbin cluster)، المصممة لحذف السمات التي تُعتبر غير مفيدة بشكل انتقائي، مما يعزز من جودة الوصفة النهائية. بالإضافة إلى ذلك، نستفيد من نموذج DINOv2 كهيكل أساسي (backbone) ونُعدّله بدقة (fine-tune)، مما يوفر قدرة توصيف محسّنة للسمات المحلية ويقلل بشكل كبير من زمن التدريب المطلوب. نتيجة لذلك، لا يتجاوز أسلوبنا الأحادي المرحلة (single-stage) الأداء في المعايير العامة لـ VPR مقارنة بالأساليب الأحادية السابقة، بل يتفوق أيضًا على الأساليب الثنائية المراحل التي تعتمد على إعادة ترتيب (re-ranking) بتكلفة أعلى بكثير. يمكن الوصول إلى الكود والنموذج عبر الرابط: https://github.com/serizba/salad.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp