ChangeCLIP: كشف التغير في الاستشعار عن بعد باستخدام تعلم التمثيل البصري-اللغوي متعدد الوسائط
كشف التغيرات من خلال الاستشعار عن بعد (RSCD)، الذي يهدف إلى تحديد التغيرات السطحية من صور مزدوجة الزمن، يُعدّ ذا أهمية كبيرة في العديد من التطبيقات مثل حماية البيئة ومراقبة الكوارث. في العقد الماضي، دفعت موجة الذكاء الاصطناعي العديد من الأساليب الحديثة القائمة على التعلم العميق للكشف عن التغيرات، والتي حققت تقدمًا جوهريًا. ومع ذلك، فإن هذه الأساليب تركز بشكل أكبر على تعلم التمثيل البصري، بينما تتجاهل الإمكانات الكامنة في البيانات متعددة الوسائط. في الآونة الأخيرة، قدّمت النماذج الأساسية البصرية-اللغوية، مثل CLIP، نموذجًا جديدًا للذكاء الاصطناعي متعدد الوسائط، وأظهرت أداءً مبهرًا في المهام التطبيقية اللاحقة. بالانسجام مع هذا الاتجاه، قمنا في هذه الدراسة بتمثيل إطار عمل جديد يُدعى ChangeCLIP، يستفيد من المعلومات الدلالية القوية المستمدة من أزواج الصورة-النص، وتم تصميمه خصيصًا للكشف عن التغيرات في الاستشعار عن بعد (RSCD). وبشكل محدد، أعدنا بناء النموذج الأصلي CLIP لاستخراج السمات المزدوجة الزمنية، واقترحنا وحدة جديدة لتعويض السمات التفاضلية لالتقاط التغيرات الدلالية الدقيقة بين الصور. بالإضافة إلى ذلك، طرحنا مُفكّكًا يُدار بالذكاء البصري-اللغوي من خلال دمج نتائج الترميز الصوتي-اللغوي مع السمات البصرية في مرحلة التفكيك، مما يعزز من الدلالة البصرية للصورة. وقد حقق ChangeCLIP أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) من حيث معامل IoU على خمسة مجموعات بيانات معروفة للكشف عن التغيرات: LEVIR-CD (85.20%)، LEVIR-CD+ (75.63%)، WHUCD (90.15%)، CDD (95.87%)، وSYSU-CD (71.41%). وسيكون الكود والنماذج المُدرّبة مسبقًا لـ ChangeCLIP متاحين للجمهور عبر الرابط: https://github.com/dyzy41/ChangeCLIP.