HyperAIHyperAI
منذ 2 أشهر

PIGEON: التنبؤ بمواقع الصور الجغرافية

Lukas Haas; Michal Skreta; Silas Alberti; Chelsea Finn
PIGEON: التنبؤ بمواقع الصور الجغرافية
الملخص

تظل مشكلة تحديد موقع الصور على مستوى الكوكب تحديًا صعبًا بسبب تنوع الصور القادمة من جميع أنحاء العالم. رغم أن الأساليب المستندة إلى متحولات الرؤية (Vision Transformers) قد حققت تقدمًا كبيرًا في دقة تحديد الموقع، إلا أن النجاح في الأدبيات السابقة كان مقيدًا بتوزيع ضيق للصور المعالم، ولم يعمم الأداء إلى أماكن غير معروفة سابقًا. نقدم نظام تحديد موقع جديد يجمع بين إنشاء خلايا جغرافية معنوية، وتدريب متعدد المهام بالمقارنة المسبقة، ودالة خسارة جديدة. بالإضافة إلى ذلك، يعد عملنا أول من يقوم بالاسترجاع عبر مجموعات المواقع لتحسين التخمينات. نقوم بتدريب نموذجين لتقييم البيانات على المستوى الشارعي والتحديد الجغرافي العام للصورة؛ الأول هو النموذج PIGEON، الذي يتم تدريبه على بيانات من لعبة Geoguessr ويكون قادرًا على وضع أكثر من 40% من تخميناته ضمن 25 كيلومترًا من الموقع المستهدف عالميًا. كما طورنا روبوتًا وأنشرنا PIGEON في تجربة عمياء ضد البشر، حيث حصلنا على تصنيف ضمن أفضل 0.01% من اللاعبين. نتحدى أيضًا أحد أفضل اللاعبين المحترفين في Geoguessr في سلسلة من ست مباريات بحضور ملايين المشاهدين، وفزنا بكل المباريات الست. أما نموذجنا الثاني PIGEOTTO فيختلف في أنه يتم تدريجه على مجموعة بيانات تحتوي على صور من Flickr وWikipedia، مما يجعله يحقق أفضل النتائج الحالية في مجموعة واسعة من مقاييس تحديد موقع الصور الجغرافية، حيث يتفوق بنسبة تصل إلى 7.7 نقطة مئوية على مستوى الدقة الحضرية وبنسبة تصل إلى 38.8 نقطة مئوية على مستوى الدولة. تقترح نتائجنا أن PIGEOTTO هو أول نموذج لتحديد موقع الصور الجغرافي يعمل بكفاءة عالية عند التعامل مع أماكن غير معروفة سابقًا وأن أسلوبنا يمكن أن يفتح الطريق لنظم تحديد موقع صور دقيقة للغاية وعلى نطاق الكوكب بأكمله. رمز البرمجيات الخاص بنا متاح على GitHub.

PIGEON: التنبؤ بمواقع الصور الجغرافية | أحدث الأوراق البحثية | HyperAI