النقل الأمثل للتعرف على التوزيعات الطويلة الذيل مع مصفوفة تكلفة قابلة للتعلم

إنها تجذب الانتباه إلى مشكلة التعرف ذات الذيل الطويل، وهي مسألة حارقة أصبحت شائعة جدًا مؤخرًا. وتنفرد هذه المشكلة عن التعرف التقليدي من خلال افتراض أن توزيع مجموعة التدريب مُشوَّه بشدة، بينما تبقى مجموعتا التحقق والاختبار متوازنتين. ومن الطبيعي أن تفرض هذه الحالة تحديات جسيمة على سلوك التعميم للنموذج، ناتجة عن الانزياح في التوزيع بين مجموعة التدريب والاختبار. وتركز الحلول المطروحة لمواجهة هذه التحديات على مجموعتين رئيسيتين: أولاً، الأساليب المُدرَّسة، التي تهدف إلى تعزيز قدرة النموذج على التعميم من خلال استغلال إمكاناته خلال فترة التدريب؛ وثانيًا، التصحيح ما بعد التدريب، الذي يُدمج بشكل واسع مع الأساليب المُدرَّسة، ويهدف إلى تحسين التنبؤات إلى أقصى حد ممكن في مرحلة ما بعد المعالجة، مما يمنحه مزايا البساطة والفعالية. في هذه الورقة، نقدّم اتجاهًا بديلًا للتصحيح ما بعد التدريب، يتجاوز الطرق الإحصائية. من الناحية الرياضية، ننظر إلى هذه المشكلة من منظور النقل الأمثل (Optimal Transport - OT)، ولكن اختيار مصفوفة التكلفة الدقيقة عند تطبيق OT يشكل تحديًا كبيرًا، ويستدعي معرفة خبرائية بمهام متنوعة. لتجاوز هذه القيود، نقترح استخدام التحويل الخطي لتعلم مصفوفة التكلفة بشكل تكيفي دون الحاجة إلى إعدادات مسبقة. وعند اختبار طريقة العمل عمليًا، أظهرت تجاربنا أن طريقة التعلم المقترحة تتميز بكفاءة عالية وأداء ممتاز، وتتفوق على جميع الأساليب السابقة، وتُعدّ الأفضل حتى الآن.