بسيط، فعّال وعام: هيكل أساسي جديد للتحديد الجغرافي للصور عبر المناظر المختلفة

في هذه الدراسة، نهدف إلى معالجة مشكلة مهمة ولكنها غير كافية الاستكشاف، وهي تصميم هيكل أساسي بسيط وفعال خصيصًا للمهام المتعلقة بالتحديد الجغرافي عبر المنظورات المختلفة. تتميز الطرق الحالية لمهام التحديد الجغرافي عبر المنظورات عادةً بثلاثة عناصر رئيسية: 1) أساليب معقدة، 2) حسابات تستهلك وحدات معالجة الرسوميات (GPU)، و3) افتراض صارم ينص على أن الصور الجوية والصورة الأرضية تكون متماثلة محوريًا أو مُحاذاة من حيث الاتجاه. لمعالجة هذه التحديات الثلاثة المتعلقة بتوافق الصور عبر المنظورات، نقترح شبكة هيكل أساسي جديدة تُسمى شبكة التحديد الجغرافي للصور القائمة على الانتباه البسيط (SAIG). تُمكّن طبقة الانتباه المتعددة الرؤوس في SAIG من تمثيل التفاعلات الطويلة المدى بين الشظايا (patches) والتوافق عبر المنظورات بشكل فعّال. كما أن البنية "الضيقة-العميقة" (narrow-deep) لشبكتنا SAIG تُحسّن غنى الميزات دون تقليل الأداء، في حين أن جزء التمهيد التوافقي السطحي والفعال يحافظ على الخصائص المحلية، مما يُقلل من فقدان معلومات الحدود الناتجة عن عملية تقسيم الصورة إلى شظايا. حققت شبكة SAIG نتائج متفوقة على مستوى الحد الأقصى في مهام التحديد الجغرافي عبر المنظورات، مع بساطة كبيرة مقارنة بالدراسات السابقة. علاوةً على ذلك، وباستخدام ما يعادل 15.9% فقط من عدد معاملات النموذج ونصف البُعد الخارجي مقارنةً بالنموذج المتفوّق حاليًا، تمكّنت SAIG من التكيف بكفاءة عبر عدة مجموعات بيانات متعددة للصور عبر المنظورات، دون الحاجة إلى استخدام وحدات تجميع ميزات مصممة بدقة أو خوارزميات محاذاة ميزات. وبالإضافة إلى ذلك، تحقّق SAIG نتائج تنافسية في معايير استرجاع الصور، مما يُظهر بشكل إضافي قدرتها العالية على التعميم. باعتبارها هيكلًا أساسيًا، تتميز SAIG بالسهولة في الفهم والكفاءة الحسابية المنخفضة، مما يجعلها ذات قيمة عملية كبيرة. علاوةً على ذلك، نقترح وحدة بسيطة لتجميع الميزات المختلطة مكانيًا (SMD)، والتي تُمكن من مزج المعلومات المكانية وتحويلها إلى فضاء ذي أبعاد منخفضة لإنتاج وصفات ميزات. (الكود متاح على: https://github.com/yanghongji2007/SAIG)