تعزيز نماذج الرؤية اللغوية للاستشعار عن بعد للتصنيف الصوري بدون تدريب مسبق

نماذج الرؤية واللغة المستخدمة في الاستشعار عن بعد أظهرت استخدامات واعدة بفضل التدريب المكثف الذي خضعت له. ومع ذلك، فإن استخدامها التقليدي في طرق تصنيف المشاهد بدون معلومات سابقة لا يزال يتضمن تقسيم الصور الكبيرة إلى مربعات وإجراء تنبؤات مستقلة، أي الاستدلال الاستقرائي، مما يحد من فعاليتها بإهمال المعلومات السياقية القيمة. نهجنا يعالج هذه المشكلة من خلال الاستفادة من التنبؤات الأولية التي تعتمد على تحفيز النصوص والعلاقات بين المربعات من مشفّر الصورة لتعزيز قدرات التصنيف بدون معلومات سابقة عبر الاستدلال التراندوكتيفي، وذلك دون الحاجة إلى إشراف وبتكلفة حسابية طفيفة. التجارب التي أجريت على 10 قواعد بيانات للاستشعار عن بعد باستخدام نماذج الرؤية واللغة الأكثر تقدماً أظهرت تحسينات كبيرة في الدقة مقارنة بالتصنيف بدون معلومات سابقة باستخدام الاستدلال الاستقرائي. شفرتنا المصدر متاحة بشكل عام على موقع جيثب: https://github.com/elkhouryk/RS-TransCLIP