التعلم المُراقب المُوجه بالتباين للتمييز الطويل الذيل

تُظهر البيانات الواقعية غالبًا توزيعات ذي ذيل طويل مع عدم توازن شديد بين الفئات، حيث يمكن أن تهيمن الفئات الغالبة على عملية التدريب وتُغيّر حدود القرار الخاصة بالفئات القليلة. في الآونة الأخيرة، درس الباحثون إمكانات التعلم المُراقب التمييزي (Supervised Contrastive Learning) في التعرف على البيانات ذات التوزيع الطويل الذيل، وبيّنوا أنه يُحقق تحسنًا كبيرًا في الأداء. في هذه الورقة، نُظهر أن التعلم المُراقب التمييزي، رغم قدرته على تحسين الأداء، يعاني من عدم تجانس جيد ناتج عن توزيع غير متوازن للبيانات. ويتجلى هذا عدم التجانس في ضعف فصل العينات المنتمية إلى الفئات القليلة داخل فضاء الميزات. ولحل هذه المشكلة، نقترح نموذج التعلم المُراقب التمييزي المستهدف (Targeted Supervised Contrastive Learning - TSC)، الذي يُحسّن التجانس في توزيع الميزات على كرة فراغية عالية الأبعاد. يبدأ TSC بإنشاء مجموعة من الأهداف الموزعة بشكل متجانس على كرة فراغية، ثم يُجبر ميزات الفئات المختلفة على الاقتراب من هذه الأهداف المميزة والموزعة بشكل متجانس خلال عملية التدريب. وهذا يُجبر جميع الفئات، بما في ذلك الفئات القليلة، على الحفاظ على توزيع متجانس داخل فضاء الميزات، ويُحسّن حدود الفئات، ويُقدّم تعميمًا أفضل حتى في ظل وجود بيانات ذات توزيع طويل الذيل. أظهرت التجارب على عدة مجموعات بيانات أن TSC تحقق أداءً متفوقًا على المستوى الحالي (state-of-the-art) في مهام التعرف على البيانات ذات التوزيع الطويل الذيل.