التدريب المتوسط لـ BERT لتطابق المنتجات

نموذجات قائمة على Transformer مثل BERT قد دفعت حدود الأداء في مجموعة واسعة من المهام ضمن معالجة اللغة الطبيعية. إذ تتيح التدريب العام على مجموعات بيانات ضخمة للنماذج المبنية على Transformer تحقيق أداء جيد حتى مع كميات صغيرة من البيانات التدريبية عند التخصيص المحدد للمهمة. في هذا العمل، نطبق نموذج BERT على مهمة مطابقة المنتجات في التجارة الإلكترونية، ونُظهر أن BERT أكثر كفاءة في استخدام البيانات التدريبية مقارنةً بأساليب الحد الأقصى الأخرى. علاوةً على ذلك، نُظهر أنه يمكننا تعزيز فعالية النموذج عبر خطوة تدريب وسيطة، مستفيدين من مجموعات كبيرة من عروض المنتجات. يؤدي هذا التدريب الوسيط إلى أداء قوي (>90% F1) على منتجات جديدة لم تُرَ من قبل، دون الحاجة إلى أي تخصيص مخصص للمنتج. كما أن التدريب المخصص الإضافي يُحدث مكاسب إضافية، مما يُنتج تحسينات تصل إلى 12% في مؤشر F1 بالنسبة لمجموعات تدريب صغيرة. وعند إضافة هدف نمذجة اللغة المُقنّعة (masked language modeling) في خطوة التدريب الوسيطة بهدف تكييف النموذج اللغوي بشكل أعمق مع مجال التطبيق، يُسهم ذلك في زيادة إضافية تصل إلى 3% في مؤشر F1.