VL-LTR: تعلُّم التمثيل البصري-اللغوي حسب الفئة للتمييز البصري ذي التوزيع الطويل الذيل

تواجه النماذج القائمة على التعلم العميق صعوبات عند معالجة البيانات ذات التوزيع الطويل الذيل في العالم الحقيقي. وعادةً ما تعتمد الحلول الحالية على استراتيجيات موازنة أو التعلم المن転 (transfer learning) للتعامل مع مشكلة عدم التوازن بين الفئات، وذلك بناءً على الوسائط البصرية. في هذا العمل، نقدم إطارًا للتمييز طويل الذيل البصري-اللغوي، يُسمى VL-LTR، ونُجري دراسات تجريبية لتقييم الفوائد الناتجة عن إدخال الوسيط النصي في التمييز طويل الذيل (LTR). مقارنةً بالطرق الحالية، يتمتع VL-LTR المقترح بالخصائص التالية: (1) يمكن لطريقتنا تعلم تمثيل بصري من الصور، بالإضافة إلى تعلم تمثيل لغوي متناظر من وصفات نصية على مستوى الفئة، والتي تُجمع من الإنترنت وغالبًا ما تكون مشوهة؛ (2) يمكن لطريقتنا الاستفادة الفعالة من التمثيل البصري-اللغوي المُتعلّم لتحسين أداء التمييز البصري، وبشكل خاص بالنسبة للفئات التي تتوفر لها عدد قليل من الصور. كما أجرينا تجارب واسعة النطاق، وحققنا أداءً جديدًا يُعدّ الأفضل حتى الآن على معايير LTR الشهيرة. ومن الملاحظ أن طريقتنا حققت دقة إجمالية قدرها 77.2% على ImageNet-LT، وهي تفوق بشكل كبير أفضل طريقة سابقة بفارق أكثر من 17 نقطة، وتقريبًا تقترب من الأداء السائد الناتج عن التدريب على مجموعة ImageNet الكاملة. يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/ChangyaoTian/VL-LTR.