HyperAIHyperAI
منذ 17 أيام

ClusterFit: تحسين التعميم للتمثيلات البصرية

Xueting Yan, Ishan Misra, Abhinav Gupta, Deepti Ghadiyaram, Dhruv Mahajan
ClusterFit: تحسين التعميم للتمثيلات البصرية
الملخص

يكتسب تدريب الشبكات العصبية التلافيفية مسبقًا باستخدام استراتيجيات التدريب الضعيف والذاتي التدريب شهرة متزايدة في عدة مهام رؤية الحاسوب. ومع ذلك، وبسبب نقص الإشارات التمييزية القوية، قد تُظهر هذه التمثيلات المُتعلّمة تجاوزًا للانسجام مع هدف التدريب المسبق (مثل توقع العلامات المرجعية) ولا تُعامَل بشكل جيد في المهام اللاحقة. في هذا العمل، نقدّم استراتيجية بسيطة تُسمى ClusterFit (CF) لتحسين مقاومة التمثيلات البصرية المُتعلّمة أثناء التدريب المسبق. بالاعتماد على مجموعة بيانات معينة، نقوم بـ (أ) تجميع الميزات المستخرجة من شبكة مُدرّبة مسبقًا باستخدام خوارزمية k-means، و(ب) إعادة تدريب شبكة جديدة من الصفر على هذه المجموعة باستخدام تعيينات التجميع كتسميات افتراضية (Pseudo-labels). نُظهِر تجريبيًا أن التجميع يساعد في تقليل المعلومات الخاصة بمهام التدريب المسبق من الميزات المستخرجة، وبالتالي تقليل احتمالية التجاوز للانسجام مع نفس الهدف. تُعدّ هذه الطريقة قابلة للتوسع إلى أطر تدريب مسبق مختلفة — سواء كانت ضعيفة أو ذاتية التدريب، وتشمل مختلف الوسائط — الصور والفيديوهات — وكذلك مهام التدريب المسبق — التصنيف الكائنات والتصنيف الإجراءات. من خلال تجارب واسعة النطاق في التعلم الناقل على 11 مجموعة بيانات مستهدفة مختلفة في المفردات والدقة، نُظهر أن ClusterFit يُحسّن بشكل ملحوظ جودة التمثيلات مقارنةً بأفضل النماذج الحالية ذات الحجم الكبير (ملايين/بلايين) في التدريب الضعيف للصور والفيديوهات، وكذلك النماذج ذاتية التدريب للصور.