الحث البصري الصريح للفواصل الأولية الشاملة

التمييز الأولي هو مشكلة أساسية في رؤية الحاسوب، والتي تشمل اكتشاف الأشياء البارزة، وكشف التزوير، وتحديد الضبابية الناتجة عن عدم التركيز، وكشف الظلال، واكتشاف الأشياء المموهة. كانت الأعمال السابقة تعتمد عادةً على حلول محددة للمنطقة لمعالجة قضايا الدقة والثبات في تلك التطبيقات. في هذا البحث، نقدم إطارًا موحدًا لعدد من مهام التمييز الأولي دون أي تصاميم محددة للمهمة. نستلهم من البروتوكولات الشائعة الاستخدام في معالجة اللغة الطبيعية (NLP)، وهي التدريب المسبق ثم ضبط الإشارات (prompt tuning)، ونقترح نموذج إشارة بصرية جديد يُسمى الإشارة البصرية الصريحة (EVP). على خلاف الإشارات البصرية السابقة التي تكون غالبًا غرس ضمني على مستوى مجموعة البيانات، فإن فهمنا الأساسي هو توجيه المعلمات القابلة للضبط نحو المحتوى البصري الصريح لكل صورة فردية، أي الخصائص من غرسات الفواصل الثابتة والمكونات عالية التردد. طريقتنا تقوم بتجميد نموذج تم تدريبه مسبقًا ومن ثم تعلم المعرفة الخاصة بالمهمة باستخدام عدد قليل من المعلمات الإضافية. رغم إدخال عدد قليل فقط من المعلمات القابلة للضبط، فإن EVP يحقق أداءً أفضل من إعادة التدريب الكامل وأساليب إعادة التدريب ذات الكفاءة العالية الأخرى. تظهر التجارب في أربعة عشر مجموعة بيانات عبر خمس مهمات أن الطريقة المقترحة تتفوق على الأساليب الأخرى الخاصة بالمهمة بينما تكون بسيطة بشكل كبير. يُظهر النموذج المقترح قابلية التوسع في هياكل مختلفة وأوزان تم تدريبها مسبقًا ومهمات متعددة. يمكن الحصول على الكود من الرابط التالي: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.