إنجازٌ كبيرٌ في تحديد المواقع الجغرافية للصور! اقترحت جامعة مين، وجوجل، وOpenAI، وآخرون، إطار عمل LocDiff، الذي يُتيح تحديد المواقع العالمية بدقةٍ دون الحاجة إلى شبكاتٍ أو مكتباتٍ مرجعية.

تُستخدم تقنية فك تشفير الموقع، التي تستنتج الموقع الجغرافي من المعلومات السياقية، على نطاق واسع في تركيب المسارات، وتجزئة مخططات المباني، وتحديد المواقع الجغرافية للصور. ومن بين هذه التقنيات، أصبح تحديد المواقع الجغرافية للصور، الذي يربط المحتوى المرئي بالإحداثيات الجغرافية، محورًا بحثيًا رئيسيًا. فهو يتنبأ بإحداثيات خطوط العرض والطول من خلال تحليل خصائص الصورة، وهو مناسب لأنواع بيانات مثل مراقبة الحياة البرية ومناظر شوارع المدن.
ومع ذلك، بخلاف مهام تصنيف الصور التقليدية، يواجه تحديد الموقع الجغرافي للصور مشاكل معقدة في رسم الخرائط غير الخطية، مما يجعل النمذجة الدقيقة صعبة. استخدمت الدراسات المبكرة نماذج الانحدار لرسم خرائط مباشرة لخصائص الصور وفقًا لخطوط العرض والطول، إلا أن هذه النماذج أظهرت ضعفًا في الاستقرار وأخطاء في التنبؤ غالبًا ما وصلت إلى مئات الكيلومترات على نطاق عالمي. للتغلب على هذه المشكلة، اقترح الباحثون طريقة "تحويل التحديد"، مما حوّل مهمة تحديد الموقع الجغرافي إلى مشكلة تصنيف أو استرجاع. ومع ذلك، لا تزال هذه الطرق محدودة من حيث الدقة المكانية والتغطية الجغرافية.
في السنوات الأخيرة، فتحت التقنيات التوليدية، ممثلةً بنماذج الانتشار، آفاقًا جديدة لأبحاث تحديد المواقع الجغرافية نظرًا لقدرتها الممتازة على نمذجة توزيعات البيانات المستمرة. بناءً على ذلك، اقترح فريق مشترك من جامعة مين، وجامعة تكساس، وجامعة جورجيا، وجامعة ماريلاند، وجوجل، وOpenAI، وجامعة هارفارد، نهجًا مبتكرًا.وجد الباحثون أن السبب الأساسي وراء فشل طرق التوليد التقليدية هو أن الخصائص المكانية للإحداثيات الجغرافية تختلف عن خصائص البيانات التقليدية: حيث تقع الإحداثيات في متعدد ريماني مدمج بدلاً من الفضاء الإقليدي، وسوف يؤدي تطبيق الضوضاء بشكل مباشر إلى تشويه الإسقاط؛ في الوقت نفسه، تفتقر الإحداثيات الأصلية إلى المعلومات المكانية متعددة المقاييس، مما يجعل من الصعب دعم نمذجة التوزيعات المعقدة.لمعالجة هاتين المشكلتين الرئيسيتين، اقترح الفريق "دلتا ديراك للتوافقيات الكروية (SHDD)" والإطار المتكامل LocDiff. ومن خلال بناء طريقة ترميز وبنية انتشار مُكيّفة مع الهندسة الكروية، حققوا تحديدًا دقيقًا للمواضع دون الاعتماد على شبكات مُعدّة مسبقًا أو مكتبات صور خارجية، مما أتاح مسارًا تقنيًا رائدًا في هذا المجال.
وقد تم تضمين نتائج الأبحاث ذات الصلة، والتي تحمل عنوان "LocDiff: تحديد المواقع على الأرض عن طريق الانتشار في فضاء هيلبرت"، في NeurIPS 2025.

عنوان الورقة:
https://openreview.net/forum?id=ghybX0Qlls
اتبع حساب WeChat الرسمي الخاص بنا وقم بالرد "LocDiff" في الخلفية للحصول على ملف PDF الكامل.
مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://hyper.ai/papers
مجموعة البيانات: استنادًا إلى GeoCLIP، تعمل مجموعة البيانات هذه على توسيع ثلاث مجموعات بيانات رئيسية لتحديد الموقع الجغرافي للصور النموذجية على نطاق عالمي.
ولضمان قابلية مقارنة نتائج البحث وموثوقيتها، اتبع الباحثون إعدادات معيارية لنموذج GeoCLIP، المستخدم على نطاق واسع في مجال تحديد موقع الصور.استخدمت مرحلة التدريب مجموعة البيانات MP16 (MediaEval Placing Tasks 2016)، والتي تحتوي على 4.72 مليون صورة مع تعليقات جغرافية دقيقة، مما يوفر دعمًا كافيًا للبيانات لتدريب النموذج.أثناء مرحلة الاختبار، تم اختيار ثلاث مجموعات بيانات نموذجية لتحديد الموقع الجغرافي للصور على نطاق عالمي: Im2GPS3k، وYFCC26k، وGWS15k.
تجدر الإشارة إلى أن مجموعتي الاختبار Im2GPS3k وYFCC26k تُشبهان إلى حد كبير مجموعة التدريب MP16 من حيث توزيع البيانات، وقد تتداخل بعض الصور. تُعطي هذه الخاصية أساليب الاسترجاع (مثل GeoCLIP) ميزةً معينةً في عملية المطابقة، مما يُحسّن دقة استرجاعها.خلال مرحلة استنتاج النموذج، اعتمد الباحثون الاستراتيجية المستخدمة في النماذج السائدة مثل GeoCLIP وSimCLR، حيث قاموا بإنشاء 16 نسخة محسنة لكل صورة اختبار واستخدام المركز الجغرافي لعيناتها المتعددة كموقع متوقع نهائي.تُحسّن هذه الاستراتيجية أداء النموذج بشكل ملحوظ. على سبيل المثال، في التجارب المقارنة، إذا أُزيلت خطوات تحسين الصورة ومتوسط النتائج، تنخفض دقة تحديد المواقع على مقياس كيلومتر واحد في GeoCLIP على مجموعة بيانات Im2GPS3k من 14% إلى أقل من 10%.
لتقييم قدرات تحديد المواقع للنموذج بشكل شامل على مقاييس مكانية مختلفة، حددت هذه الدراسة خمسة مستويات للتقييم: مستوى الشارع (كيلومتر واحد)، ومستوى المدينة (25 كيلومترًا)، والمستوى الإقليمي (200 كيلومتر)، والمستوى الوطني (750 كيلومترًا)، والمستوى القاري (2500 كيلومتر). وتم قياس أداء النموذج كميًا من خلال التنبؤ إحصائيًا بنسبة العينات التي تقع ضمن نطاق الموقع الفعلي.
LocDiff: نموذج الانتشار الكامن لتوليد المواضع الكروية
الهدف الأساسي لنموذج LocDiff هو بناء إطار انتشار كامن مُصمم لتوليد المواقع الكروية. وتتمثل فكرته الأساسية في بناء مساحة ترميز موقع قادرة على التغلب على مشاكل الندرة واللاخطية. ويتحقق ذلك تحديدًا من خلال التكامل العميق لإطار ترميز وفك ترميز دالة ديراك التوافقية الكروية (SHDD)، وبنية Siren-UNet الشرطية (CS-UNet)، واستراتيجيات حسابية فعّالة.
لتوضيح التوجه التقني، يُعرّف هذا البحث أولًا رياضيًا الخصائص الأساسية التي يجب أن يتمتع بها فضاء ترميز الموضع المثالي: لنفترض أن فضاء الإحداثيات C عبارة عن كرة وحدة مدمجة في فضاء إقليدي ثلاثي الأبعاد، مُعَلَّمة باستخدام الإحداثيات الزاوية (θ، φ)؛ يجب أن يكون مُرمِّز الموضع المثالي PE دالة حقن من C إلى الفضاء عالي الأبعاد ℝ^d (مما يضمن تفرد الترميز)، بينما يجب أن يكون مُفكِّك الترميز PD دالة شاملة تُعيِّن من ℝ^d إلى C (مما يضمن سلامة فك الترميز). والأهم من ذلك، يجب ملء فضاء الترميز بكثافة من خلال مقياس فرق مستمر ℰ، ويجب أن يُلبي مُفكِّك الترميز شرط الاستقرار الذي ينص على أن "الاضطرابات الصغيرة في فضاء الترميز لا تُسبب سوى تغييرات صغيرة في الإحداثيات الكروية" - هاتان الخاصيتان أساسيتان للتغلب على الاختناقات التقنية الحالية.
ومع ذلك، تواجه الأساليب الحالية معضلة مزدوجة في تحقيق الأهداف المذكورة أعلاه: إذا كانت مساحة ترميز الموقع نفسها متفرقة، فسيواجه نموذج الانتشار صعوبة في تنفيذ عملية انتشار مستقرة فيها، مما يؤدي مباشرة إلى صعوبات في تقارب التدريب وانخفاض دقة فك التشفير؛ إذا تم استخدام مساحة تضمين موقع كثيفة بدلاً من ذلك، على الرغم من أنها يمكن أن تدعم التقدم السلس لعملية الانتشار، فإن التعيين غير الخطي للغاية بين ترميز الموقع ومساحة الإحداثيات سيتسبب في وقوع مهمة "استنتاج الإحداثيات الجغرافية الصحيحة من نتائج التضمين" في طريق مسدود - غالبًا ما لا يتوافق تقليل المسافة في مساحة التضمين مع تقليل المسافة في المساحة الجغرافية.
وللتغلب على هذا التحدي، اقترح الباحثون مخطط ترميز SHDD.يتضمن النهج المبتكر أولًا تحويل نقطة كروية (θ₀, φ₀) إلى دالة ديراك كروية توافقية δ_(θ₀, φ₀)، ثم ترميز هذه الدالة إلى متجه معامل دالة كروية توافقية، مما يُشكل في النهاية تمثيل SHDD. في التطبيقات العملية، بتحديد أقصى رتبة L للدالة التوافقية الكروية، يمكن اختصار متجه المعامل ذي الأبعاد اللانهائية نظريًا إلى تمثيل مُدمج (L+1)². علاوة على ذلك، كلما زادت قيمة L، زادت دقة المعلومات المكانية المُلتقطة بواسطة التمثيل، مما يوفر دعمًا مرنًا لمتطلبات تحديد المواقع متعددة المقاييس.
فضاء ترميز SHDD كثيف بطبيعته: كل نقطة e فيه تتوافق بشكل فريد مع دالة كروية Fₑ. يُقاس الفرق بين هذه الدالة ودالة ديراك التوافقية الكروية δ_(θ₀, φ₀) المقابلة للموقع الحقيقي بتباعد KL العكسي. مقياس الفرق ℰ هو المقياس المستمر المطلوب للدراسة.والأمر الأكثر أهمية هو أن تباعد SHDD KL ومسافة Wasserstein-2 لهما علاقة قيد واضحة، مما يضمن رياضيا الاتساق بين الاختلافات في مساحة الترميز والاختلافات في توزيع الاحتمالات الكروية، مما يضع الأساس لاستقرار فك التشفير.في الوقت نفسه، يُحلّ ترميز SHDD بفعالية مشكلة اللاخطية في الطرق التقليدية. تُظهر مقارنة خريطة الحرارة ذات الصلة أن المسافة الكروية التي يقيسها SHDD أكثر سلاسةً مقارنةً بطرق التضمين التقليدية. يُقلّل هذا السلاسة بشكل كبير من خطر انتشار الأخطاء في عملية فك التشفير، ويضمن دقة تحديد المواقع.

بناءً على خصائص تمثيل SHDD، صمم الباحثون فك تشفير البحث عن الوسائط لتحقيق فك التشفير الفعال.يستخدم هذا المُفكك خاصية البحث النمطي لتباعد KL العكسي لإجراء عكس الإحداثيات من خلال إيجاد المنطقة ذات أعلى تركيز لكتلة احتمال الدوال الكروية. يُستخدم المُعامل الفائق ρ لموازنة دقة فك التشفير واستقراره - فقيمة ρ الأكبر تجعل نتيجة فك التشفير أقل حساسية للقمم المحلية، لكنها تُؤدي إلى دقة أقل، بينما تُحسّن قيمة ρ الأصغر الدقة، لكنها تجعلها أكثر عرضة للضوضاء المحلية. يتميز هذا التصميم الخالي من المُعاملات بميزتين: فهو يتجنب التسبب في خسائر إضافية أثناء مرحلة فك التشفير، ويُلغي تمامًا الاعتماد على أقسام كروية مُحددة مسبقًا أو مكتبات صور مرجعية خارجية، مُتجاوزًا بذلك قيود تطبيقات الطرق التقليدية.
باعتبارها شبكة التوليد الشرطي الأساسية لـ LocDiff، كما هو موضح في الشكل أدناه، تستخدم بنية CS-UNet شبكة SirenNet كوحدة أساسية. ينبع هذا الاختيار من أن معاملات الدوال التوافقية الكروية هي في الأساس تراكب لدوال الجيب وجيب التمام، وأن دالة التنشيط الجيبية لـ SirenNet قادرة على الحفاظ على تدفق التدرج بفعالية، والتكيف مع متطلبات انتشار السمات التوافقية الكروية. تُحقق الوحدة الأساسية لـ CS-UNet، وهي C-Siren، إزالة ضوضاء شرطية فعّالة من خلال آلية دمج سمات متطورة: بعد إدخال المتجه الكامن x، والتضمين الشرطي للصورة e_I، وخطوة الانتشار t، يتم إسقاط x وe_I أولاً في متجهات مخفية، ثم تُحوّل خطوة زمن الانتشار المنفصلة t إلى متجهات مقياس وإزاحة لإكمال إزالة الضوضاء غير المشروطة. أخيرًا، يتم دمج ظروف الصورة وميزات إزالة الضوضاء، ويتم إخراج الميزات المعدلة وتمريرها إلى وحدة المستوى التالي، لتشكيل سلسلة توجيه مشروطة كاملة.

تتبع عملية تدريب LocDiff إطار عمل DDPM القياسي، باستخدام "موضع الصورة الكروي" كأزواج عينات تدريب: أولاً، تُحوّل الصورة إلى تمثيل تضمين ثابت الأبعاد e_I عبر مُرمِّز CLIP مُجمَّد، ويُرمَّز الموضع الكروي المُقابل (θ، φ) كتمثيل SHDD ويُخزَّن للاستخدام لاحقًا. خلال مرحلة الانتشار الأمامي، تُضاف الضوضاء تدريجيًا إلى دالة ديراك التوافقية الكروية حتى تُحوَّل إلى متجه ضوضاء غاوسي خالص. خلال مرحلة الانتشار الخلفي، يستعيد CS-UNet، مُسترشدًا بمُضمِّن الصورة e_I، تمثيل SHDD الأصلي تدريجيًا من متجه الضوضاء. دالة الخسارة المُستخدمة للتدريب هي تباعد SHDD KL، وهي، مُقارنةً بخسارة MSE الكروية التقليدية، ليست أكثر استقرارًا عدديًا فحسب، بل تحافظ أيضًا على المعلومات المكانية متعددة المقاييس بفعالية، مما يُساعد النموذج على تعلُّم السمات العالمية والمحلية.
خلال مرحلة الاستدلال، يبدأ النموذج بضوضاء غاوسية عشوائية، ويسترشد بالخصائص المضمنة في صورة الإدخال، ويُولّد تدريجيًا متجهات معامل SHDD عبر CS-UNet. تُحوّل هذه المتجهات بعد ذلك إلى إحداثيات كروية (θ، φ) عبر مُفكك تشفير بحث النمط. في التطبيق الهندسي العملي، يُقرّب حساب تباعد SHDD KL وعملية تكامل بحث النمط من خلال جمع مجموعة نقاط ارتكاز كروية منفصلة. أثناء التدريب، تُؤخذ عينات عشوائية من نقاط الارتكاز عالميًا لتجنب الإفراط في التجهيز.
من خلال التركيز على ثلاثة أبعاد رئيسية، يعمل LocDiff بشكل استثنائي في معظم سيناريوهات الاختبار.
لتقييم أداء نموذج LocDiff بشكل منهجي، أجرت هذه الدراسة تجارب على ثلاثة أبعاد: دقة التوطين، والقدرة على التعميم، والكفاءة الحسابية. والتزمت جميع التجارب بالإعدادات القياسية للمجال لضمان عدالة المقارنات.
تُظهر التجارب، كما هو موضح في الجدول أدناه، أن أداء LocDiff ممتاز في معظم سيناريوهات الاختبار. ولتحسين الأداء الدقيق، صمم الباحثون نموذجًا هجينًا، LocDiff-H، يجمع بفعالية بين مزايا الطريقتين من خلال تحديد نطاق استرجاع GeoCLIP بنصف قطر 200 كيلومتر من الموقع المُولّد بواسطة LocDiff. يُظهر LocDiff-H أداءً رائعًا على Im2GPS3k وYFCC26k، ولكنه يتأخر عن أداء LocDiff الأصلي على GWS15k، خاصةً في المقاييس الدقيقة. ويعود ذلك أساسًا إلى الاختلاف التوزيعي الكبير بين GWS15k ومجموعة التدريب، مما يؤثر سلبًا على الانحياز الاستقرائي لـ GeoCLIP.

كما هو موضح في الجدول أدناه، بالمقارنة مع النماذج التوليدية المماثلة، يتفوق LocDiff على DiffR³ وFMR³ والنماذج الأخرى القابلة للمقارنة في كل من مجموعات البيانات OSM-5M وYFCC-4k، مما يثبت مزايا طريقة الانتشار الكامن متعدد المقاييس.

يكشف تحليل التعميم عن القيمة الفريدة للطرق التوليدية. تعتمد GeoCLIP القائمة على الاسترجاع بشكل كبير على التغطية المكانية لمستودع الخرائط: يتراجع أداؤها بشكل ملحوظ عندما لا يتطابق توزيع مجموعة الاختبار مع مجموعة التدريب؛ حتى مع استخدام ملايين نقاط الشبكة المنتظمة كمواقع مرشحة، فإن أداءها على مقاييس 200 كيلومتر فأكثر يكون أدنى بكثير من استخدام مستودع الخرائط الأصلي. وهذا يعكس محدودية قدرة هذه الطريقة على التكيف مع المواقع غير المرئية.
في المقابل، يُظهر LocDiff قدرة تعميم قوية. وكما هو موضح في الجدول أدناه، تُظهر النتائج التجريبية أن أداء LocDiff يبقى مستقرًا بغض النظر عما إذا كانت نقاط الارتكاز تستخدم مواقع مكتبة MP16 أو نقاط شبكة موحدة، وبغض النظر عما إذا كان عدد نقاط الارتكاز يزداد من 21,000 إلى مليون، مما يؤكد متانته بشكل أكبر.

من حيث الكفاءة الحسابية، يُظهر LocDiff أداءً ممتازًا. يتميز ترميز/فك ترميز SHDD، كعملية مغلقة الشكل حتمية، بتعقيد زمني شبه ثابت وتعقيد فضائي خطي. أثناء التدريب، يُمكن حساب ترميز SHDD مسبقًا كجدول بحث تضمين، ويُنفَّذ فك الترميز من خلال عمليات ضرب المصفوفات وargmax الفعّالة. على وجه الخصوص، تُسرّع تمثيلات SHDD متعددة المقاييس تقارب عملية الانتشار بشكل كبير - حيث يتقارب LocDiff مع مجموعة بيانات YFCC في حوالي مليوني خطوة فقط، بينما يتطلب النموذج الأفضل في فئته 10 ملايين خطوة.

الإنجازات الأكاديمية والظهور الصناعي في تقنية تحديد المواقع الجغرافية بالصور
لقد حققت تقنية تحديد موقع الصور، باعتبارها جسرًا مهمًا يربط المعلومات البصرية والعالم المادي، تقدمًا كبيرًا في كل من البحث الأكاديمي والتطبيق العملي في السنوات الأخيرة.
في المجال الأكاديمي، حقق فريق بحثي في مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) إنجازًا هامًا في ترميز الموقع الكروي. ولمعالجة تحدي رسم الخرائط غير الخطية بالطرق التقليدية، اقترح الفريق مخططًا مُحسّنًا يعتمد على الانتشار المتعدد، يجمع بين الدوال التوافقية الكروية والتعلم المتعدد. يُحسّن هذا الابتكار أداء النموذج في تحديد الموقع بشكل ملحوظ في المناطق التي تندر فيها البيانات، مثل المناطق القطبية والمحيطات، مما يزيد من الدقة بمقدار 231 TP3T على مقياس 100 كيلومتر. كما يُقدم البحث آلية تعديل تكيفية للمقياس، مما يُحسّن بشكل فعال قدرة النموذج على التعميم عبر السيناريوهات عبر المناطق.
عنوان الورقة:انتشار الموقع: تحديد المواقع على الأرض عن طريق الانتشار في فضاء ديراك دلتا التوافقي الكروي
رابط الورقة:https://arxiv.org/abs/2503.18142
في غضون ذلك، اقترحت جامعة الإمارات الرقمية إطار عمل GeoCoT، وهو نموذج استدلالي مبتكر متعدد الخطوات، مصمم لتعزيز قدرات استدلال الموقع الجغرافي لنماذج الرؤية الكبيرة. يُحسّن GeoCoT أداء تحديد المواقع بشكل ملحوظ من خلال دمج المعلومات السياقية والإشارات المكانية تدريجيًا من خلال محاكاة العملية المعرفية البشرية لتحديد الموقع الجغرافي. تُظهر التجارب القائمة على مقياس GeoEval أن هذا الإطار يُحسّن دقة الموقع الجغرافي بما يصل إلى 25% مع الحفاظ على قابلية تفسير جيدة.
عنوان الورقة:تحديد الموقع الجغرافي باستخدام بيانات اللعب البشرية الحقيقية: مجموعة بيانات واسعة النطاق وإطار عمل للتفكير يشبه التفكير البشري
رابط الورقة:https://arxiv.org/pdf/2502.13759
تُترجم هذه المفاهيم الأكاديمية بسرعة إلى إنتاجية عملية، مما يُحفّز الممارسات المبتكرة في القطاع. وتُعدّ منصة الذكاء الجغرافي المكاني التي طورتها شركة PRISM Intelligence، الفائزة بتحدي ناسا للشركات الناشئة لعام ٢٠٢٣، مثالاً بارزاً على ذلك. تستخدم هذه المنصة تقنية مجال الإشعاع لتحويل صور الاستشعار عن بُعد ثنائية الأبعاد إلى بيئات رقمية ثلاثية الأبعاد عالية الدقة، وتجمع بين التجزئة الدلالية المدعومة بالذكاء الاصطناعي وخوارزميات التحسين الديناميكي لتحقيق تفاعل اللغة الطبيعية مع البيانات الجغرافية المكانية.
استخدم فريق جوجل إيرث نموذجًا توليديًا مُدرّبًا على كميات هائلة من بيانات عرض الشوارع العالمية لتحقيق تنبؤات دقيقة بالموقع استنادًا إلى الصور، ولإكمال معلومات الصور المفقودة تلقائيًا بسبب الطقس والبناء وعوامل أخرى. وقد حسّنت هذه التقنية كفاءة تحديثات عرض الشوارع في جوجل إيرث بمقدار ثلاثة أضعاف، ووسّعت نطاق تغطيتها ليشمل مناطق أكثر بُعدًا.
لا تعمل ممارسات الصناعة هذه على إثبات القيمة التطبيقية للبحث الأكاديمي فحسب، بل توفر أيضًا اتجاهات جديدة للابتكار النظري من خلال التغذية الراجعة من السيناريوهات الواقعية، مما يدفع تكنولوجيا تحديد موقع الصور باستمرار نحو قدر أكبر من الدقة والكفاءة وإمكانية الوصول.
روابط مرجعية:
1.https://science.nasa.gov/science-research/science-enabling-technology/technology-highlights/entrepreneurs-challenge-winner-prism-is-using-ai-to-enable-insights-from-geospatial-data/
2.https://ai.google.dev/competition/projects/prism