قوي ولكن بسيط: أساس للاستشعار الكثيف العام للمنطقة من خلال التعلم النقل القائم على CLIP

الترجمة إلى اللغة العربية:تظل التعميم بين المجالات (DG) تحديًا كبيرًا في مجال الإدراك المستند إلى الشبكات العصبية العميقة (DNNs)، حيث تحدث الانحرافات المجالية بسبب البيانات المصنعة، الإضاءة، الطقس أو التغيرات الجغرافية. وقد مثلت نماذج الرؤية واللغة (VLMs) خطوة كبيرة في تعزيز قدرات التعميم وتم تطبيقها بالفعل على مهام متعددة. وفي الآونة الأخيرة جدًا، تم استخدام النماذج الأولى من نماذج الرؤية واللغة لأول مرة في تقسيم المجالات المعممة وكشف الأشياء، مما أدى إلى تحقيق تعميم قوي. ومع ذلك، تعتمد جميع هذه الأساليب على وحدات معقدة، وإطارات زيادة الخصائص أو نماذج إضافية. وبشكل مفاجئ ومعاكسة لذلك، اكتشفنا أن التعديل الدقيق البسيط للنماذج المدربة مسبقًا على الرؤية واللغة يحقق نتائج تنافسية وحتى أقوى في التعميم بينما يكون سهل التطبيق بشكل استثنائي. بالإضافة إلى ذلك، وجدنا أن التدريب المسبق للرؤية واللغة يوفر دائمًا تعميمًا أفضل من المعيار السابق للتدريب المسبق على الرؤية فقط. يمكن للتعديل الدقيق الكامل لنموذج الرؤية واللغة المدرب مسبقًا الوصول إلى أفضل مستوى للتعميم بين المجالات (SOTA) عند التدريب على مجموعة بيانات GTA5 الصناعية. كما نؤكد هذا الاستنتاج للكشف عن الأشياء في مقاييس جديدة من الاصطناعي إلى الحقيقي. نحن أيضًا نحقق قدرات تعميم فائقة بوصولنا إلى 77.9% من دقة التقاط المساحة الوسطى (mIoU) في مقاييس Cityscapes-to-ACDC الشهيرة. كما اكتشفنا تحسينًا في التعميم داخل المجال، مما أدى إلى تحسين أفضل مستوى للتعميم بين المجالات (SOTA) بنسبة 86.4% من دقة التقاط المساحة الوسطى (mIoU) على مجموعة اختبار Cityscapes، مما يجعلنا في المركز الأول على لوحة النتائج.ملاحظات:- "Domain generalization" تم ترجمتها إلى "التعميم بين المجالات".- "Deep neural networks" تم ترجمتها إلى "الشبكات العصبية العميقة".- "Vision-language models" تم ترجمتها إلى "نماذج الرؤية واللغة".- "Fine-tuning" تم ترجمتها إلى "التعديل الدقيق".- "State-of-the-art" تم ترجمتها إلى "أفضل مستوى" أو "أعلى مستوى".- "Mean Intersection over Union" تم اختصارها وترجمتها إلى "دقة التقاط المساحة الوسطى (mIoU)".- اسماء البيانات مثل "GTA5"، "Cityscapes"، و"ACDC" بقيت كما هي لأنها أسماء خاصة ومألوفة في هذا السياق.- الحفاظ على النغمة العلمية والموضوعية في اللغة العربية لضمان صحة ووضوح المعلومات العلمية والتكنولوجية.