HyperAIHyperAI

Command Palette

Search for a command to run...

الحث البصري الصريح للفواصل الأولية الشاملة

Weihuang Liu Xi Shen Chi-Man Pun Xiaodong Cun

الملخص

التمييز الأولي هو مشكلة أساسية في رؤية الحاسوب، والتي تشمل اكتشاف الأشياء البارزة، وكشف التزوير، وتحديد الضبابية الناتجة عن عدم التركيز، وكشف الظلال، واكتشاف الأشياء المموهة. كانت الأعمال السابقة تعتمد عادةً على حلول محددة للمنطقة لمعالجة قضايا الدقة والثبات في تلك التطبيقات. في هذا البحث، نقدم إطارًا موحدًا لعدد من مهام التمييز الأولي دون أي تصاميم محددة للمهمة. نستلهم من البروتوكولات الشائعة الاستخدام في معالجة اللغة الطبيعية (NLP)، وهي التدريب المسبق ثم ضبط الإشارات (prompt tuning)، ونقترح نموذج إشارة بصرية جديد يُسمى الإشارة البصرية الصريحة (EVP). على خلاف الإشارات البصرية السابقة التي تكون غالبًا غرس ضمني على مستوى مجموعة البيانات، فإن فهمنا الأساسي هو توجيه المعلمات القابلة للضبط نحو المحتوى البصري الصريح لكل صورة فردية، أي الخصائص من غرسات الفواصل الثابتة والمكونات عالية التردد. طريقتنا تقوم بتجميد نموذج تم تدريبه مسبقًا ومن ثم تعلم المعرفة الخاصة بالمهمة باستخدام عدد قليل من المعلمات الإضافية. رغم إدخال عدد قليل فقط من المعلمات القابلة للضبط، فإن EVP يحقق أداءً أفضل من إعادة التدريب الكامل وأساليب إعادة التدريب ذات الكفاءة العالية الأخرى. تظهر التجارب في أربعة عشر مجموعة بيانات عبر خمس مهمات أن الطريقة المقترحة تتفوق على الأساليب الأخرى الخاصة بالمهمة بينما تكون بسيطة بشكل كبير. يُظهر النموذج المقترح قابلية التوسع في هياكل مختلفة وأوزان تم تدريبها مسبقًا ومهمات متعددة. يمكن الحصول على الكود من الرابط التالي: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp