HyperAIHyperAI

Command Palette

Search for a command to run...

SgVA-CLIP: التكييف البصري الموجه بالمعني لنماذج الرؤية واللغة لتصنيف الصور القليلة الامثلة

Fang Peng Xiaoshan Yang Linhui Xiao Yaowei Wang Changsheng Xu

الملخص

رغم التقدم الكبير المحرز في التعلم القائم على عدد قليل من الأمثلة، فإن معظم الطرق الحالية لتصنيف الصور القائمة على عدد قليل من الأمثلة تتطلب تدريبًا مراقبًا مسبقًا على كميات كبيرة من العينات الخاصة بالفئات الأساسية، مما يحد من قدرتها على التعميم في التطبيقات الواقعية. في الآونة الأخيرة، أصبحت النماذج الكبيرة المُدرّبة مسبقًا على الرؤية واللغة (VLPs) تجذب انتباهًا متزايدًا في مجال التعلم القائم على عدد قليل من الأمثلة، نظرًا لقدرتها على توفير منهجية جديدة لتعلم تمثيلات بصرية قابلة للنقل، باستخدام نصوص متاحة بسهولة عبر الويب. ومع ذلك، قد تتجاهل هذه النماذج المعلومات البصرية الدقيقة التي يصعب وصفها بجمل لغوية، رغم أهميتها في تعلُّم تصنيف فعّال يميّز بين الصور المختلفة. ولحل هذه المشكلة، نقترح إطارًا جديدًا يُسمى التكيّف البصري المُوجَّه بالمعنى (SgVA)، الذي يمكنه توسيع النماذج المُدرّبة مسبقًا على الرؤية واللغة بشكل فعّال لإنتاج ميزات بصرية مُعدّلة تميّزية، وذلك من خلال الاستفادة الشاملة من تدريب المعرفة الضمنية، ووظيفة فقدان التباين المُخصصة للرؤية، ووظيفة فقدان التباين عبر الوسائط. تم تصميم تدريب المعرفة الضمنية لنقل المعرفة الدقيقة عبر الوسائط لتوجيه تحديث مُعدّل الرؤية. وأظهرت النتائج الأفضل في المجال على 13 مجموعة بيانات أن الميزات البصرية المُعدّلة يمكنها مكملة الميزات عبر الوسائط بشكل جيد، مما يعزز أداء تصنيف الصور القائمة على عدد قليل من الأمثلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp