الحث البصري الصريح لتقسيمات الهيكل المنخفض المستوى

نعتبر المشكلة العامة للكشف عن الهياكل منخفضة المستوى في الصور، والتي تشمل تقسيم الأجزاء المحررة، تحديد البكسلات خارج التركيز، فصل المناطق الظليلة، وكشف الأشياء المخفية. بينما تم التعامل مع كل موضوع من هذه المواضيع عادةً باستخدام حلول خاصة بالمنطقة، نوضح أن النهج الموحد يؤدي بشكل جيد في جميعها. نستلهم من البروتوكولات الشائعة الاستخدام للتدريب الأولي ثم ضبط الدفعات في مجال معالجة اللغة الطبيعية (NLP) ونقترح نموذجًا جديدًا للدفع البصري، باسم الدفع البصري الصريح (EVP). على عكس الدفع البصري السابق الذي يكون غالبًا غرسًا ضمنيًا على مستوى مجموعة البيانات، فإن رؤيتنا الأساسية هي فرض تركيز المعلمات القابلة للضبط على المحتوى البصري الصريح لكل صورة فردية، أي الخصائص من التغلب على الغرزات الثابتة والمكونات عالية التردد من الإدخال. يتفوق النموذج المقترح EVP بشكل كبير على بروتوكولات الضبط الكفؤة بالمعلمات الأخرى تحت نفس عدد المعلمات القابلة للضبط (5.7٪ إضافية من المعلمات القابلة للتدريب لكل مهمة). كما يحقق EVP أداءً متميزًا في مهام تقسيم الهياكل منخفضة المستوى المختلفة مقارنة بالحلول الخاصة بكل مهمة. شفرتنا متاحة على الرابط التالي:https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.