نموذج تضمين بصري-معنوي موجه بالاتجاه لاسترجاع الصور والنصوص من الصور الفضائية

طورت مهمة استرجاع الصور والنصوص تطورًا سريعًا في السنوات الأخيرة. ومع ذلك، لا يزال يمثل تحديًا في مجال الاستشعار عن بعد نظرًا للاختلال بين السياق البصري والمعاني اللغوية، مما يؤدي إلى تطابق خاطئ بين السمات البصرية غير المعنوية والسمات النصية. ولحل هذه المشكلة، نقترح نموذجًا جديدًا للتمثيل البصري-اللغوي موجهًا بالاتجاه (DOVE) لاستكشاف العلاقة بين البصر واللغة. وتميّزنا في إجراء تمثيلات بصرية ونصية في الفضاء الخفي، بحيث تُوجه إلى أقرب مدى ممكن من تمثيل بصري إقليمي خالٍ من التكرار. وبشكل محدد، يُعدّ وحدة الانتباه الموجهة إقليميًا (ROAM) مسؤولة عن تعديل المسافة بين التمثيلات البصرية والنصية النهائية في الفضاء المعنوي الخفي، وذلك بناءً على السمات البصرية الإقليمية. وفي الوقت نفسه، تم تصميم مساعد نصي خفيف الوزن لاستكشاف الجينوم النصي (DTGA) لتوسيع نطاق التمثيلات النصية القابلة للتعامل معها وتعزيز الروابط المعنوية على مستوى الكلمات على المستوى العام، باستخدام عدد أقل من عمليات الانتباه. في النهاية، نستخدم قيدًا بصريًا-معنويًا عالميًا لتقليل الاعتماد على تمثيل بصري واحد، ويعمل كقيد خارجي للتمثيلات البصرية والنصية النهائية. وقد تم التحقق من فعالية وتفوّق طريقة العمل لدينا من خلال تجارب واسعة تشمل تقييم المعلمات، والمقارنة الكمية، والدراسات التحليلية، والتحليل البصري، على مجموعتي بيانات معياريتين: RSICD وRSITMD.