HyperAIHyperAI
منذ 2 أشهر

تمييز التجمعات متعددة العلامات لتعلم التمثيل البصري

Xiang An; Kaicheng Yang; Xiangzi Dai; Ziyong Feng; Jiankang Deng
تمييز التجمعات متعددة العلامات لتعلم التمثيل البصري
الملخص

قد أظهرت طريقة التدريب المسبق للغة والصورة بالمقارنة (CLIP) مؤخرًا نجاحًا في مهام مختلفة بفضل تمثيل الخصائص المتفوق الذي يوفره التعلم المقارن بين الصورة والنص. ومع ذلك، فإن طريقة تمييز النماذج المستخدمة من قبل CLIP تكاد لا تستطيع ترميز البنية الدلالية لبيانات التدريب. لمعالجة هذا القصور، تم اقتراح التمييز العنقودي من خلال تعيين العناقيد بشكل متكرر والتصنيف. ومع ذلك، فإن معظم طرق التمييز العنقودي تعين تصنيفًا وهميًا واحدًا فقط لكل صورة، مما يتجاهل الإشارات المتعددة الأصناف الموجودة في الصورة. في هذه الورقة البحثية، نقترح طريقة جديدة للتمييز العنقودي المتعدد الأصناف تُسمى MLCD لتعزيز تعلم التمثيل. في خطوة التجميع، نقوم أولاً بتجميع مجموعة البيانات الضخمة LAION-400M إلى مليون مركز بناءً على خصائص الانغراس الجاهزة. مع الأخذ في الاعتبار أن الصور الطبيعية غالبًا ما تحتوي على كائنات أو سمات بصرية متعددة، نختار المراكز الأقرب المتعددة كتصنيفات فرعية. في خطوة التمييز، نصمم دالة خسارة جديدة للتصنيف المتعدد الأصناف، والتي تفصل ببراعة الخسائر من الفئات الإيجابية والفئات السلبية وتخفف من الغموض حول حد القرار. نتحقق من صحة الطريقة المقترحة للتمييز العنقودي المتعدد الأصناف عبر التجارب على نماذج وأنظمة بيانات مسبقة ذات أحجام مختلفة. تظهر النتائج التجريبية أن طريقتنا تحقق أداءً رائدًا في عدة مهام ثانوية بما فيها الاستكشاف الخطي، تصنيف الصفر الأول (Zero-shot classification)، واسترجاع الصورة والنص. تم إصدار الكود والنماذج على الرابط: https://github.com/deepglint/unicom .