أداء نماذج تصنيف مزيج الغاوسي في الفضاءات المضمنة للسمات

توفر تضمينات البيانات باستخدام CLIP وImageBind ميزات قوية لتحليل البيانات متعددة الوسائط و/أو متعددة النماذج. نقيّم أداؤها هنا في تصنيف البيانات باستخدام طبقة قائمة على نماذج المزيج الغاوسي (GMMs) كبديل عن الطبقة القياسية Softmax. وقد أُظهر مؤخرًا أن فئات التصنيف القائمة على نماذج المزيج الغاوسي تُظهر أداءً مثيرًا للاهتمام ضمن أنظمة تعلم عميق يتم تدريبها بشكل متكامل من البداية إلى النهاية. إن إسهامنا الأول يتمثل في دراسة أداء التصنيف القائم على نماذج المزيج الغاوسي، مستفيدًا من الفضاءات المُضمنة التي توفرها CLIP وImageBind. أما إسهامنا الثاني، فهو اقتراح فئة تصنيف خاصة بنا تعتمد على نماذج المزيج الغاوسي، وبعدد معلمات أقل من النماذج المُقترحة سابقًا. وتبين نتائجنا أن، في معظم الحالات، يكون كافياً استخدام مكون غاوسي واحد فقط في نماذج المزيج الغاوسي لتمثيل كل فئة، ونفترض أن هذا قد يكون ناتجًا عن استخدام خسارة التمييز (contrastive loss) أثناء تدريب هذه الفضاءات المُضمنة، التي تُركّز بشكل طبيعي الميزات معًا لكل فئة. كما لاحظنا أن ImageBind يوفر أداءً أفضل غالبًا من CLIP في تصنيف مجموعات بيانات الصور، حتى عند ضغط هذه الفضاءات المُضمنة باستخدام تحليل المكونات الرئيسية (PCA).