إنشاء مجموعات بيانات باستخدام نماذج اللغة المُدرّبة مسبقًا

للحصول على تمثيلات جمل عالية الجودة من نماذج اللغة المُدرّبة مسبقًا (PLMs)، يجب إما تعزيزها بأهداف تدريب إضافية أو تدريبها بدقة على مجموعة كبيرة من أزواج النصوص المُصنّفة. وعلى الرغم من أن النهج الأخير يتفوّق عادةً على الأول، فإنه يتطلب جهدًا بشريًا كبيرًا لإنشاء مجموعات بيانات مناسبة وذات حجم كافٍ. في هذه الورقة، نُظهر كيف يمكن استغلال نماذج اللغة المُدرّبة مسبقًا لاستخلاص تمثيلات جمل عالية الجودة دون الحاجة إلى بيانات مُصنّفة، أو تدريب دقيق (finetuning)، أو تعديلات في هدف التدريب المسبق: نستفيد من القدرات التوليدية للنماذج الكبيرة والفعّالة من نوع PLMs لإنشاء مجموعات بيانات كاملة من أزواج النصوص المُصنّفة من الصفر، ثم نستخدم هذه المجموعات لتدريب نماذج أصغر وأكثر كفاءة. يُظهر نهجنا المُعتمد بالكامل على البيانات غير المُصنّفة أداءً أفضل من القواعد القوية على عدة مجموعات بيانات لتشابه النصوص الدلاليّة.