خسارة موجهة بالاحتمال لتصنيف الصور متعددة التسميات ذات التوزيع الطويل
لقد لاقت التعلم الطويل الذيل (Long-tailed learning) اهتمامًا متزايدًا في السنوات الأخيرة. ويشكل التصنيف الصوتي متعدد التصنيفات الطويل الذيل (Long-tailed multi-label image classification) واحدة من المهام الفرعية، وتظل هذه المهمة تحديًا كبيرًا وتمت دراستها بشكل محدود. في هذا البحث، نقدم منظورًا جديدًا مبنيًا على الاحتمالات لمعالجة هذه المشكلة. وبشكل أكثر تحديدًا، نلاحظ أن الطرق الحالية لتعلم مُحَسَّس التكلفة (cost-sensitive learning) المُستخدمة في التصنيف الصوتي متعدد التصنيفات الطويل الذيل تؤثر بشكل متفاوت على احتمالات التوقع للعلامات الموجبة والسالبة أثناء التدريب، وأن العمليات المختلفة في التقدير الاحتمالي تؤثر بدورها على الأداء النهائي. لذا نقترح خسارة موجهة بالاحتمالات (probability guided loss) تتضمن مكونين للتحكم في هذه العملية: الأول هو إعادة توازن الاحتمالات (probability re-balancing)، الذي يمكنه تعديل عملية تدريب الاحتمالات بشكل مرن؛ والثاني هو "التركيز المُتكيف المُدرك للاحتمالات" (adaptive probability-aware focal)، الذي يُقلل بشكل إضافي من الفجوة بين احتمالات العلامات الموجبة والسالبة. أجرينا تجارب واسعة على مجموعتي بيانات تصنيف صوتي متعدد التصنيفات طويلات الذيل: VOC-LT وCOCO-LT. وأظهرت النتائج منطقية واستثنائية لاستراتيجيتنا المُقترحة.