HyperAIHyperAI
منذ 11 أيام

التجميع العميق متعدد الوسائط: تقسيم غير مراقب للصور

Guy Shiran, Daphna Weinshall
التجميع العميق متعدد الوسائط: تقسيم غير مراقب للصور
الملخص

تُعد عملية تجميع الصور الخام غير المصنفة تحديًا كبيرًا، وقد تم التقدم في هذا المجال مؤخرًا باستخدام أساليب التعلم العميق. في هذا العمل، نقترح إطارًا غير مراقب للتجميع، يتم فيه تعلم شبكة عصبية عميقة بطريقة نهائية-إلى-نهائية (end-to-end)، مما يتيح تعيين التجميعات مباشرة للصور دون الحاجة إلى معالجة إضافية. يُدرب نموذج التجميع العميق متعدد النماذج (MMDC) الشبكة العميقة بحيث تتطابق تمثيلات الصور (image embeddings) مع نقاط الهدف المستمدة من توزيع نموذج مزيج الغاوسي (Gaussian Mixture Model). ثم تُحدد تعيينات التجميع من خلال ارتباط تمثيلات الصور بمركبات المزيج. في الوقت نفسه، تُدرَّب الشبكة نفسها على مهمة إضافية ذاتية التحصيل (self-supervised) تتمثل في توقع دوران الصور. وهذا يشجع الشبكة على تعلم تمثيلات صور أكثر معنى، مما يُسهّل التجميع بشكل أفضل. أظهرت النتائج التجريبية أن MMDC تحقق أداءً يعادل أو يتفوق على أفضل النتائج المنشورة في ستة معايير صعبة. وعلى مجموعات بيانات الصور الطبيعية، تحسّن النتائج السابقة بفارق كبير يصل إلى 20 نقطة مئوية في الدقة المطلقة، حيث بلغت الدقة 82% على CIFAR-10، و45% على CIFAR-100، و69% على STL-10.