HyperAIHyperAI
منذ 13 أيام

ترانس-إنكودر: نمذجة أزواج الجمل غير المُعلَّمة من خلال التعلم الذاتي والتبادلية

Fangyu Liu, Yunlong Jiao, Jordan Massiah, Emine Yilmaz, Serhii Havrylov
ترانس-إنكودر: نمذجة أزواج الجمل غير المُعلَّمة من خلال التعلم الذاتي والتبادلية
الملخص

في معالجة اللغة الطبيعية (NLP)، تتضمن كمية كبيرة من المهام مقارنة زوجية بين تسلسلين (مثل تقييم التشابه بين جمل وتحديد التعبيرات البديلة). في الغالب، تُستخدم صيغتان رئيسيتان لمهام الجملة الزوجية: النموذج الثنائي (bi-encoder) والنموذج المتقاطع (cross-encoder). يُنتج النموذج الثنائي تمثيلات ثابتة الأبعاد للجمل، ويتميز بكفاءة حسابية عالية، لكنه غالبًا ما يُظهر أداءً أقل مقارنةً بالنموذج المتقاطع. أما النموذج المتقاطع فيُمكنه استغلال رؤوس الانتباه لاستكشاف التفاعلات بين الجمل لتحقيق أداء أفضل، لكنه يتطلب تخصيصًا مخصصًا للمهمة ويتطلب موارد حسابية أعلى. في هذا البحث، نقدم نموذج تمثيل جملة غير مُراقب بالكامل يُسمى Trans-Encoder، والذي يدمج بين النموذجين التعلّميَّين في إطار تكاملي تكراري لتعلم النموذجين الثنائي والمقاطع في آنٍ واحد. بشكل محدد، نبدأ بتحويل نموذج لغة مُدرّب مسبقًا (PLM) إلى نموذج ثنائي غير مُراقب، ثم نتناوب بين صيغتي المهمة الثنائية والمقاطعة. في كل تناوب، تُولَّد علامات افتراضية (pseudo-labels) من إحدى الصيغتين، وتُستخدم كإشارات تعلّم للصيغة الأخرى. ثم نقترح توسيعًا يُمكّن من تطبيق هذه الطريقة التلقائية (self-distillation) على عدة نماذج لغة مُدرّبة مسبقًا بالتوازي، ويتم استخدام المتوسط الحسابي للعلامات الافتراضية الناتجة من هذه النماذج لتحقيق تبادل التعلم (mutual-distillation). يُعدّ Trans-Encoder، إلى أفضل ما نعرف، أول نموذج متقاطع غير مُراقب بالكامل، كما يُعدّ نموذجًا ثنائيًا غير مُراقب من الدرجة الأولى في مجال تشابه الجمل. وتفوق كلا الصيغتين الثنائية والمقاطعة في Trans-Encoder النماذج غير المُراقبة الحديثة ذات الأداء العالي مثل Mirror-BERT وSimCSE بنسبة تصل إلى 5% في معايير تقييم تشابه الجمل.