HyperAIHyperAI
منذ 15 أيام

تقليل الالتباس الدلالي: شبكة تجميع واعية بالسياق لاسترجاع متعدد الأنواع في الاستشعار عن بعد

{Cong Bai, Qing Ma, Jiancheng Pan}
الملخص

في الآونة الأخيرة، لاقت الاستشعار عن بعد عبر الوسائط المختلفة اهتمامًا كبيرًا من الباحثين. ومع ذلك، فإن الطبيعة الفريدة للصور المستشعرة عن بعد تؤدي إلى وجود العديد من مناطق الالتباس الدلالي في الفضاء الدلالي، مما يؤثر بشكل كبير على أداء الاسترجاع. نقترح شبكة تجميع واعية بالمشهد (SWAN) جديدة لتقليل الالتباس الدلالي من خلال تحسين قدرة التعرف على المشهد. في التمثيل البصري، نُقدّم وحدة دمج متعددة المقاييس البصرية (VMSF) لدمج السمات البصرية ذات المقاييس المختلفة كهيكل أساسي للتمثيل البصري. وفي الوقت نفسه، نقترح وحدة استشعار دقيقة للصورة (SFGS) لبناء ارتباطات بين السمات البارزة على مستويات دقة مختلفة. ويُنشأ تمثيل بصري واعٍ بالمشهد من خلال المعلومات البصرية الناتجة عن هاتين الوحدتين. أما في التمثيل النصي، فقد صُمّمت وحدة تحسين خشنة للنص (TCGE) لتعزيز الدلالة النصية وتوحيد المعلومات البصرية. علاوة على ذلك، وبما أن تنوع وتمييز مشاهد الاستشعار عن بعد يُضعف من فهم المشهد، فقد اقترحنا مقياسًا جديدًا يُعرف بـ "استرجاع المشهد" (scene recall) لقياس مدى إدراك المشهد من خلال تقييم أداء الاسترجاع على مستوى المشهد، والذي يمكنه أيضًا التحقق من فعالية نهجنا في تقليل الالتباس الدلالي. وباستخدام مقارنات الأداء، ودراسات التحليل التبادلي، وتحليلات التصور، تم التحقق من فعالية وتفوّق النهج المقترح على مجموعتي بيانات RSICD وRSITMD. يُمكن الوصول إلى الكود المصدري عبر الرابط التالي: https://github.com/kinshingpoon/SWAN-pytorch.

تقليل الالتباس الدلالي: شبكة تجميع واعية بالسياق لاسترجاع متعدد الأنواع في الاستشعار عن بعد | أحدث الأوراق البحثية | HyperAI