HyperAIHyperAI
منذ 17 أيام

ProGEO: إنشاء أوامر من خلال التعلم المتناقض بين الصور والنصوص للتحديد الجغرافي البصري

Chen Mao, Jingqi Hu
ProGEO: إنشاء أوامر من خلال التعلم المتناقض بين الصور والنصوص للتحديد الجغرافي البصري
الملخص

الاستشعار الجغرافي البصري (VG) يشير إلى عملية تحديد الموقع الموصوف في الصور الاستعلامية، ويُطبَّق على نطاق واسع في مجال الروبوتات وفي مهام الرؤية الحاسوبية مثل القيادة الذاتية، والعالم الافتراضي (الميتافيرس)، والواقع المعزز، وتقنية SLAM. في الصور التفصيلية الدقيقة التي تفتقر إلى وصف نصي محدد، فإن تطبيق الطرق البصرية النقية مباشرة لتمثيل ميزات الجوار غالبًا ما يؤدي إلى تركيز النموذج على ميزات دقيقة جدًا جدًا، مما يمنعه من استخلاص المعلومات الدلالية الكاملة من الصور. ولذلك، نقترح طريقة تدريب مكونة من مرحلتين لتعزيز الأداء البصري، واستخدام التعلم التناقضي (Contrastive Learning) لاستخراج العينات الصعبة. أولاً، نستفيد من القدرة متعددة الوسائط في نموذج CLIP (التدريب التناقضي للغة والصورة) لإنشاء مجموعة من النصوص القابلة للتعلم (text prompts) لكل ميزة صورة جغرافية، بهدف تكوين وصف عام. ثم، وباستخدام نصوص ديناميكية لمساعدة تدريب مشفر الصورة (image encoder)، نمكّن مشفر الصورة من تعلُّم ميزات بصرية أفضل وأكثر قابلية للتعميم. تُعد هذه الاستراتيجية التي تستخدم النصوص في المهام البصرية النقية حلًا لتحدي استخدام النماذج متعددة الوسائط في الصور الجغرافية، التي غالبًا ما تعاني من نقص في الوصف الدقيق، ما يجعل من الصعب استغلالها على نطاق واسع. وقد قمنا بتأكيد فعالية الاستراتيجية المقترحة على عدة مجموعات بيانات كبيرة للاستشعار الجغرافي البصري، وقد حقق نهجنا نتائج تنافسية على عدة مجموعات بيانات للاستشعار الجغرافي البصري. يمكن الوصول إلى الكود والنماذج الخاصة بنا عبر الرابط: https://github.com/Chain-Mao/ProGEO.