أين نحن وماذا ننظر إليه: تحديد الموقع الجغرافي العالمي للصور باستخدام الهرميات والمشاهد

تحديد العرض والطول الدقيقين لمكان التقاط الصورة هو مهمة مفيدة وذات تطبيقات واسعة، ومع ذلك لا يزال من الصعب تحقيقها بشكل استثنائي رغم التقدم المتسارع في مهام الرؤية الحاسوبية الأخرى. قد اعتمدت معظم الطرق السابقة على تعلم تمثيل واحد للصور الاستعلامية، والتي يتم تصنيفها بعد ذلك بمختلف مستويات الدقة الجغرافية. تفشل هذه الطرق في استغلال المؤشرات البصرية المختلفة التي تعطي سياقًا لمستويات مختلفة مثل مستوى الدولة والولاية والمدينة. بهدف معالجة هذا الأمر، نقدم هندسة قائمة على الشبكات العصبية التحويلية (transformer) من النهاية إلى النهاية تستغل العلاقة بين المستويات الجغرافية المختلفة (والتي نشير إليها بالهرميات) ومعلومات المشهد البصري في الصورة من خلال الانتباه المتقاطع الهرمي (hierarchical cross-attention). نحقق هذا من خلال تعلم استعلام لكل هرمي جغرافي ونوع مشهد. بالإضافة إلى ذلك، نتعلم تمثيلاً منفصلاً للمشاهد البيئية المختلفة، حيث أن المشاهد المختلفة في نفس الموقع غالبًا ما تكون محددة بمؤشرين بصريين مختلفين تمامًا. حققنا دقة المستوى الشارعي الأفضل على 4 مجموعات بيانات قياسية للتحديد الجغرافي: Im2GPS، Im2GPS3k، YFCC4k، وYFCC26k، كما أظهرنا كيف يتعلم طرحنا تمثيلات مختلفة للمؤشرات البصرية الهرمية والمشاهد، وهو ما لم يتم إظهاره في الطرق السابقة. تتكون هذه المجموعات البيانات الاختبارية السابقة بشكل أساسي من المعالم الشهيرة أو صور تم التقاطها من مواقع التواصل الاجتماعي، مما يجعلها إما مهمة حفظ أو متحيزة نحو أماكن معينة. لمعالجة هذه المشكلة، نقدم مجموعة بيانات اختبار أكثر صعوبة بكثير وهي Google-World-Streets-15k، والتي تتضمن صورًا تم التقاطها من خرائط جوجل الشارعية وتغطي الكوكب بأكمله ونقدم فيها نتائجًا رائدة في مجالها. سيتم توفير شفرتنا البرمجية في الإصدار النهائي للورقة العلمية.