الشبكات الهجينة المستندة إلى التعلم المقارن للتصنيف الصوتي الطويل الذيل

تلعب عملية تعلّم تمثيلات الصور التمييزية دورًا حيويًا في تصنيف الصور ذات التوزيع الطويل الذيل، نظرًا لقدرتها على تقليل صعوبة تعلّم الفاصل (classifier) في الحالات غير المتوازنة. بالنظر إلى الأداء الواعد الذي أظهرته تقنية التعلّم التبايني (contrastive learning) مؤخرًا في مجال تمثيل البيانات، نستكشف في هذا العمل استراتيجيات فعّالة للتعلّم التبايني المُراقب، ونُعدّلها لتعلم تمثيلات صور أفضل من بيانات غير متوازنة، بهدف تعزيز دقة التصنيف. بشكل محدد، نقترح بنية شبكة هجينة جديدة تتكون من خسارة تباينية مُراقبة لتعلّم تمثيلات الصور، وخطية خسارة الترددات المتقاطعة (cross-entropy) لتعلّم الفاصل، حيث يتم انتقال التعلّم تدريجيًا من تعلّم الميزات إلى تعلّم الفاصل، تعبيرًا عن الفكرة القائلة بأن الميزات الأفضل تُنتج فاصلًا أفضل. ونستعرض نسختين من خسارة التباين لتعلّم الميزات، تختلفان في الشكل ولكن تتماشى مع الفكرة المشتركة المتمثلة في جمع العينات من الفئة نفسها معًا في الفضاء المُعَمّل (normalized embedding space)، وفصل العينات من الفئات المختلفة عن بعضها. إحدى هذه النسخ هي خسارة التباين المُراقب (SC) التي تم اقتراحها حديثًا، والتي تم تصميمها على أساس خسارة التباين غير المُراقب الأفضل حالياً، مع إدخال عينات إيجابية من نفس الفئة. أما الأخرى فهي استراتيجية التعلّم التبايني المُراقب البُنية (PSC)، التي تعالج مشكلة الاستهلاك العالي للذاكرة في خسارة SC القياسية، مما يجعلها أكثر واعدًا في ظل ميزانية ذاكرة محدودة. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات تصنيف ذات توزيع طويل الذيل ميزة الشبكات الهجينة القائمة على التعلّم التبايني في تصنيف الصور ذات التوزيع الطويل الذيل.