PlaNet - تحديد موقع الصور باستخدام شبكات العصب الاصطناعية المت convoled

هل من الممكن بناء نظام لتحديد موقع التقاط صورة باستخدام بيكسلاتها فقط؟ بشكل عام، يبدو أن المشكلة صعبة للغاية: فمن السهل جدًا إنشاء مواقف لا يمكن فيها استنتاج الموقع. ومع ذلك، غالبًا ما تحتوي الصور على مؤشرات معلوماتية مثل المعالم الطبيعية والأنماط الجوية والنباتات وعلامات الطرق والتفاصيل المعمارية، والتي قد تسمح عند دمجها بتحديد موقع تقريبي وأحيانًا موقع دقيق. تشير مواقع الويب مثل GeoGuessr وView from your Window إلى أن البشر جيدون نسبيًا في دمج هذه المؤشرات لتحديد موقع الصور، خاصة عندما يتم التعامل معها بشكل جماعي. في رؤية الحاسوب، يتم التعامل مع مشكلة تحديد موقع الصورة عادةً باستخدام طرق استرجاع الصور. بالمقابل، نطرح المشكلة كمشكلة تصنيف من خلال تقسيم سطح الأرض إلى آلاف الخلايا الجغرافية متعددة الأبعاد، وتدريب شبكة عميقة باستخدام ملايين الصور المرتبطة بالموقع الجغرافي. بينما تعترف النهج السابقة فقط بالمعالم أو تقوم بمطابقة تقريبية باستخدام وصفات صورية عامة، فإن نموذجنا قادر على استخدام وتجميع العديد من المؤشرات المرئية. نوضح أن النموذج الناتج، الذي يُطلق عليه اسم PlaNet (بلاينت)، يتفوق على النماذج السابقة ويحقق مستويات دقيقة تتجاوز قدرة الإنسان في بعض الحالات. بالإضافة إلى ذلك، نوسع نطاق نموذجنا ليشمل البومات الصور من خلال دمجه مع هندسة الذاكرة طويلة المدى (LSTM). عن طريق التعلم لاستغلال التجانس الزمني لتحديد موقع الصور غير المؤكدة، نثبت أن هذا النموذج يحقق تحسينًا في الأداء بنسبة 50% مقارنة بنموذج الصورة الواحدة.