SemiCD-VL: إرشاد نموذج البصر-اللغة يُنتج كاشف تغيير شبه مشرف أفضل

اكتشاف التغيير (CD) يهدف إلى تحديد البكسلات التي تحتوي على تغييرات ذات معنى بين الصور. ومع ذلك، فإن وضع العلامات على أعداد كبيرة من الصور على مستوى البكسل هو عمل شاق ومكلف، خاصة بالنسبة للصور متعددة الأزمنة، والتي تتطلب مقارنات بكسلية دقيقة من قبل الخبراء البشريين. نظرًا للأداء الممتاز للنماذج اللغوية المرئية (VLMs) في المهام بدون أمثلة سابقة والمفردات المفتوحة وما إلى ذلك باستخدام الاستدلال القائم على الإرشادات، فإن استخدام هذه النماذج لتحسين اكتشاف التغيير (CD) في ظل وجود بيانات مصنفة بشكل محدود يعد واعدًا. في هذا البحث، نقترح طريقة نصف مراقبة لـ CD تستند إلى إرشاد VLMs، ونطلق عليها اسم SemiCD-VL. الفكرة الأساسية وراء SemiCD-VL هي تركيب علامات تغيير مجانية باستخدام VLMs لتوفير إشارات إشراف إضافية للبيانات غير المصنفة. ومع ذلك، فإن معظم النماذج اللغوية المرئية الحالية مصممة للصور الأحادية الزمنية ولا يمكن تطبيقها مباشرة على الصور الثنائية أو متعددة الأزمنة. انطلاقًا من هذا الدافع، نقترح أولًا استراتيجية توليد أحداث تغيير مختلطة تعتمد على VLMs لإنتاج علامات زائفة للبيانات غير المصنفة الخاصة بـ CD. بما أن الإشارات الإشرافية الإضافية التي توفرها هذه العلامات الزائفة المحركة بواسطة VLM قد تكون في تعارض مع العلامات الزائفة المنبثقة من نموذج التنظيم الثابت (مثل FixMatch)، فقد اقترحنا رأسين للمشروع لفصل مصادر الإشارات المختلفة. بالإضافة إلى ذلك، قمنا بفصل تمثيل المعنى للصور ثنائية الأزمنة صراحةً عبر محودثي تقسيم مساعدين اثنين، وهما أيضًا يُوجهان بواسطة VLM. وأخيرًا، لجعل النموذج قادرًا على التقاط تمثيلات التغيير بشكل أكثر كفاءة، قدمنا الرقابة الواعية بالمقاييس من خلال خسارة التباين على مستوى الخصائص في الفروع المساعدة. أظهرت التجارب الواسعة المزايا التي توفرها SemiCD-VL. فعلى سبيل المثال، يحسن SemiCD-VL أساس FixMatch بمقدار +5.3 IoU على مجموعة بيانات WHU-CD وبمقدار +2.4 IoU على مجموعة بيانات LEVIR-CD باستخدام 5% فقط من العلامات. بالإضافة إلى ذلك، يمكن لاستراتيجيتنا لـ CEG تحقيق أداء يتفوق بكثير على أفضل الطرق غير المراقبة لاكتشاف التغيير (CD).