HyperAIHyperAI

Command Palette

Search for a command to run...

أين نحن وماذا ننظر إليه: تحديد الموقع الجغرافي العالمي للصور باستخدام الهرميات والمشاهد

Brandon Clark Alec Kerrigan Parth Parag Kulkarni Vicente Vivanco Cepeda Mubarak Shah

الملخص

تحديد العرض والطول الدقيقين لمكان التقاط الصورة هو مهمة مفيدة وذات تطبيقات واسعة، ومع ذلك لا يزال من الصعب تحقيقها بشكل استثنائي رغم التقدم المتسارع في مهام الرؤية الحاسوبية الأخرى. قد اعتمدت معظم الطرق السابقة على تعلم تمثيل واحد للصور الاستعلامية، والتي يتم تصنيفها بعد ذلك بمختلف مستويات الدقة الجغرافية. تفشل هذه الطرق في استغلال المؤشرات البصرية المختلفة التي تعطي سياقًا لمستويات مختلفة مثل مستوى الدولة والولاية والمدينة. بهدف معالجة هذا الأمر، نقدم هندسة قائمة على الشبكات العصبية التحويلية (transformer) من النهاية إلى النهاية تستغل العلاقة بين المستويات الجغرافية المختلفة (والتي نشير إليها بالهرميات) ومعلومات المشهد البصري في الصورة من خلال الانتباه المتقاطع الهرمي (hierarchical cross-attention). نحقق هذا من خلال تعلم استعلام لكل هرمي جغرافي ونوع مشهد. بالإضافة إلى ذلك، نتعلم تمثيلاً منفصلاً للمشاهد البيئية المختلفة، حيث أن المشاهد المختلفة في نفس الموقع غالبًا ما تكون محددة بمؤشرين بصريين مختلفين تمامًا. حققنا دقة المستوى الشارعي الأفضل على 4 مجموعات بيانات قياسية للتحديد الجغرافي: Im2GPS، Im2GPS3k، YFCC4k، وYFCC26k، كما أظهرنا كيف يتعلم طرحنا تمثيلات مختلفة للمؤشرات البصرية الهرمية والمشاهد، وهو ما لم يتم إظهاره في الطرق السابقة. تتكون هذه المجموعات البيانات الاختبارية السابقة بشكل أساسي من المعالم الشهيرة أو صور تم التقاطها من مواقع التواصل الاجتماعي، مما يجعلها إما مهمة حفظ أو متحيزة نحو أماكن معينة. لمعالجة هذه المشكلة، نقدم مجموعة بيانات اختبار أكثر صعوبة بكثير وهي Google-World-Streets-15k، والتي تتضمن صورًا تم التقاطها من خرائط جوجل الشارعية وتغطي الكوكب بأكمله ونقدم فيها نتائجًا رائدة في مجالها. سيتم توفير شفرتنا البرمجية في الإصدار النهائي للورقة العلمية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp