HyperAIHyperAI
منذ 2 أشهر

جيوكليب: محاذاة مستوحاة من الكليب بين المواقع والصور لتحسين التوطين الجغرافي العالمي بشكل فعال

Vicente Vivanco Cepeda; Gaurav Kumar Nayak; Mubarak Shah
جيوكليب: محاذاة مستوحاة من الكليب بين المواقع والصور لتحسين التوطين الجغرافي العالمي بشكل فعال
الملخص

الهدف من التحديد الجغرافي العالمي هو تحديد موقع الصور الملتقطة في أي مكان على الأرض بدقة عالية. يواجه هذا المهمة تحديات كبيرة بسبب التنوع الهائل في المناظر الطبيعية الجغرافية. تفشل الأساليب القائمة على استرجاع الصورة إلى الصورة في حل هذه المشكلة على نطاق عالمي، حيث لا يمكن بناء معرض كبير للصور يغطي العالم بأكمله. بدلاً من ذلك، تقوم النهج الحالية بتقسيم الكرة الأرضية إلى خلايا جغرافية منفصلة، مما يحول المشكلة إلى مهمة تصنيف. ومع ذلك، فإن أدائها محدود بالفئات المحددة مسبقًا ويؤدي غالبًا إلى تحديد مواقع غير دقيقة عندما يكون موقع الصورة بعيدًا بشكل كبير عن مركز فئتها. لتجاوز هذه القيود، نقترح GeoCLIP، وهو نهج جديد مستوحى من CLIP لاسترجاع الصور إلى الموقع الجغرافي (GPS) والذي يفرض تناسقًا بين الصورة وموقعها الجغرافي المقابل. يقوم مُشفِّر الموقع في GeoCLIP بتمثيل الأرض كدالة مستمرة باستخدام الترميز الموضعي عبر الخصائص الفورية العشوائية وبناء تمثيل هرمي يلتقط المعلومات بدرجات دقة مختلفة لإنتاج خاصية ذات أبعاد عالية غنية بالمحتوى يمكن استخدامها حتى في مجالات أخرى خارج التحديد الجغرافي. حسب علمنا، هذه هي أول دراسة تستخدم ترميز GPS للتحديد الجغرافي. نوضح فعالية طريقتنا من خلال التجارب الواسعة والتحليلات الإلغائية على مجموعات بيانات مرجعية. نحقق أداءً تنافسيًا باستخدام 20٪ فقط من البيانات التدريبية، مما يؤكد فعاليتها حتى في بيئات ذات بيانات محدودة. بالإضافة إلى ذلك، نوضح بشكل نوعي التحديد الجغرافي باستخدام استعلام نصي عن طريق الاستفادة من أساس CLIP لمُشفِّر صورتنا. صفحة الويب الخاصة بالمشروع متاحة على الرابط: https://vicentevivan.github.io/GeoCLIP

جيوكليب: محاذاة مستوحاة من الكليب بين المواقع والصور لتحسين التوطين الجغرافي العالمي بشكل فعال | أحدث الأوراق البحثية | HyperAI