HyperAIHyperAI

Command Palette

Search for a command to run...

تمييز التجمعات متعددة العلامات لتعلم التمثيل البصري

Xiang An; Kaicheng Yang; Xiangzi Dai; Ziyong Feng; Jiankang Deng

الملخص

قد أظهرت طريقة التدريب المسبق للغة والصورة بالمقارنة (CLIP) مؤخرًا نجاحًا في مهام مختلفة بفضل تمثيل الخصائص المتفوق الذي يوفره التعلم المقارن بين الصورة والنص. ومع ذلك، فإن طريقة تمييز النماذج المستخدمة من قبل CLIP تكاد لا تستطيع ترميز البنية الدلالية لبيانات التدريب. لمعالجة هذا القصور، تم اقتراح التمييز العنقودي من خلال تعيين العناقيد بشكل متكرر والتصنيف. ومع ذلك، فإن معظم طرق التمييز العنقودي تعين تصنيفًا وهميًا واحدًا فقط لكل صورة، مما يتجاهل الإشارات المتعددة الأصناف الموجودة في الصورة. في هذه الورقة البحثية، نقترح طريقة جديدة للتمييز العنقودي المتعدد الأصناف تُسمى MLCD لتعزيز تعلم التمثيل. في خطوة التجميع، نقوم أولاً بتجميع مجموعة البيانات الضخمة LAION-400M إلى مليون مركز بناءً على خصائص الانغراس الجاهزة. مع الأخذ في الاعتبار أن الصور الطبيعية غالبًا ما تحتوي على كائنات أو سمات بصرية متعددة، نختار المراكز الأقرب المتعددة كتصنيفات فرعية. في خطوة التمييز، نصمم دالة خسارة جديدة للتصنيف المتعدد الأصناف، والتي تفصل ببراعة الخسائر من الفئات الإيجابية والفئات السلبية وتخفف من الغموض حول حد القرار. نتحقق من صحة الطريقة المقترحة للتمييز العنقودي المتعدد الأصناف عبر التجارب على نماذج وأنظمة بيانات مسبقة ذات أحجام مختلفة. تظهر النتائج التجريبية أن طريقتنا تحقق أداءً رائدًا في عدة مهام ثانوية بما فيها الاستكشاف الخطي، تصنيف الصفر الأول (Zero-shot classification)، واسترجاع الصورة والنص. تم إصدار الكود والنماذج على الرابط: https://github.com/deepglint/unicom .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp