SimCSE: التعلم المتناقض البسيط للتمثيلات الجملية

تقدم هذه الورقة عملًا بعنوان SimCSE، وهو إطار بسيط للتعلم التبايني (contrastive learning) يُحدث تقدمًا كبيرًا في مجال تمثيل الجملة (sentence embeddings). نبدأ بوصف منهجية غير مُعلَّمة، تأخذ جملة مدخلة وتتنبأ بها نفسها ضمن هدف تبايني، باستخدام فقط التخفيض العشوائي القياسي (standard dropout) كضوضاء. يعمل هذا الأسلوب البسيط بشكل مدهش، ويحقق أداءً مماثلًا للطرق المُعلَّمة السابقة. ونلاحظ أن التخفيض العشوائي يُشكل نوعًا من التوسيع الأدنى للبيانات (minimal data augmentation)، وأن إزالة التخفيض العشوائي تؤدي إلى انهيار التمثيل (representation collapse). ثم نقترح منهجية مُعلَّمة، تُدمج أزواجًا مُعلَّمة من مجموعات بيانات الاستدلال اللغوي الطبيعي (natural language inference datasets) في إطارنا للتعلم التبايني، باستخدام أزواج "الاستنتاج" (entailment) كأزواج إيجابية، وأزواج "التناقض" (contradiction) كأزواج سلبية صعبة. تم تقييم SimCSE على مهام قياسية لتشابه النصوص الدلالي (semantic textual similarity - STS)، وحقق نموذجنا غير المُعلَّم والنموذج المُعلَّم باستخدام نموذج BERT base متوسط ترابط سبيرمان (Spearman's correlation) بلغ 76.3% و81.6% على التوالي، ما يمثل تحسنًا بنسبة 4.2% و2.2% مقارنة بأفضل النتائج السابقة. كما نُظهر — نظريًا وتجريبيًا — أن هدف التعلم التبايني يُنظّم الفضاء غير الموحّد (anisotropic space) للتمثيلات المُدرَّبة مسبقًا ليصبح أكثر انتظامًا، كما أنه يُحسّن محاذاة الأزواج الإيجابية عندما تكون هناك إشارات مُعلَّمة متاحة.