HyperAIHyperAI

Command Palette

Search for a command to run...

ProGEO: إنشاء أوامر من خلال التعلم المتناقض بين الصور والنصوص للتحديد الجغرافي البصري

Chen Mao Jingqi Hu

الملخص

الاستشعار الجغرافي البصري (VG) يشير إلى عملية تحديد الموقع الموصوف في الصور الاستعلامية، ويُطبَّق على نطاق واسع في مجال الروبوتات وفي مهام الرؤية الحاسوبية مثل القيادة الذاتية، والعالم الافتراضي (الميتافيرس)، والواقع المعزز، وتقنية SLAM. في الصور التفصيلية الدقيقة التي تفتقر إلى وصف نصي محدد، فإن تطبيق الطرق البصرية النقية مباشرة لتمثيل ميزات الجوار غالبًا ما يؤدي إلى تركيز النموذج على ميزات دقيقة جدًا جدًا، مما يمنعه من استخلاص المعلومات الدلالية الكاملة من الصور. ولذلك، نقترح طريقة تدريب مكونة من مرحلتين لتعزيز الأداء البصري، واستخدام التعلم التناقضي (Contrastive Learning) لاستخراج العينات الصعبة. أولاً، نستفيد من القدرة متعددة الوسائط في نموذج CLIP (التدريب التناقضي للغة والصورة) لإنشاء مجموعة من النصوص القابلة للتعلم (text prompts) لكل ميزة صورة جغرافية، بهدف تكوين وصف عام. ثم، وباستخدام نصوص ديناميكية لمساعدة تدريب مشفر الصورة (image encoder)، نمكّن مشفر الصورة من تعلُّم ميزات بصرية أفضل وأكثر قابلية للتعميم. تُعد هذه الاستراتيجية التي تستخدم النصوص في المهام البصرية النقية حلًا لتحدي استخدام النماذج متعددة الوسائط في الصور الجغرافية، التي غالبًا ما تعاني من نقص في الوصف الدقيق، ما يجعل من الصعب استغلالها على نطاق واسع. وقد قمنا بتأكيد فعالية الاستراتيجية المقترحة على عدة مجموعات بيانات كبيرة للاستشعار الجغرافي البصري، وقد حقق نهجنا نتائج تنافسية على عدة مجموعات بيانات للاستشعار الجغرافي البصري. يمكن الوصول إلى الكود والنماذج الخاصة بنا عبر الرابط: https://github.com/Chain-Mao/ProGEO.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp