يتطلب الأمر اثنين لرقص التانغو: ميكس أب للتعلم العميق للقياس

يتعلق التعلم القياسي (Metric learning) بتعلم تمثيل تمييزي بحيث يُشجَّع على قرب تمثيلات الفئات المشابهة، في حين يُبعد تمثيلات الفئات غير المشابهة عن بعضها. وتركز الطرق الرائدة حاليًا بشكل أساسي على دوال الخسارة المعقدة أو استراتيجيات استخراج الأمثلة. من جهة، تأخذ دوال الخسارة في التعلم القياسي بعين الاعتبار عنصرين أو أكثر في كل مرة. ومن جهة أخرى، تأخذ أساليب التحويل الحديثة للبيانات في التصنيف بعين الاعتبار عنصرين أو أكثر في كل مرة. ومع ذلك، فإن دمج هذين المفهومين ما زال غير مُستكشف بشكل كافٍ.في هذه الدراسة، نهدف إلى سد هذه الفجوة وتحسين التمثيلات باستخدام تقنية "مِكْسْأب" (Mixup)، وهي طريقة قوية لتحويل البيانات تقوم بتحديث خطي (تداخل) بين عنصرين أو أكثر من الأمثلة والعلامات المرتبطة بها في آنٍ واحد. يُعد هذا التحدي صعبًا لأن دوال الخسارة المستخدمة في التعلم القياسي ليست جمعية بالنسبة للعناصر (أي لا يمكن جمعها على نحو تراكمي)، وبالتالي فإن فكرة تداخل العلامات المستهدفة ليست مباشرة. إلى حد علمنا، نحن أول من يدرس مزج كل من الأمثلة والعلامات المستهدفة في سياق التعلم القياسي العميق. وقد طوّرنا صيغة عامة تشمل دوال الخسارة المستخدمة حاليًا في التعلم القياسي، ثم عدّلناها لتناسب تقنية مِكْسْأب، ما أدى إلى إنشاء طريقة جديدة تُسمى "مِتْريك مِكْس" (Metric Mix)، أو "مِتْريكْس" (Metrix). كما قمنا بطرح معيار جديد يُسمى "الاستخدام" (Utilization)، والذي يُظهر أن مزج الأمثلة أثناء التدريب يمكّن النموذج من استكشاف مناطق في فضاء التمثيل تتجاوز الفئات المدروسة، وبالتالي تحسين التمثيلات. ولإثبات فعالية التمثيلات المحسّنة، أظهرنا أن مزج المدخلات أو التمثيلات الوسطى أو التمثيلات النهائية مع العلامات المستهدفة يتفوّق بشكل كبير على أحدث الطرق في التعلم القياسي العميق على أربع مجموعات بيانات معيارية في هذا المجال.