منذ 16 أيام

توسيع تضمينات الجمل باستخدام نماذج اللغة الكبيرة

Ting Jiang, Shaohan Huang, Zhongzhi Luan, Deqing Wang, Fuzhen Zhuang

الملخص

لقد اكتسبت النماذج اللغوية الكبيرة (LLMs) اهتمامًا كبيرًا في الآونة الأخيرة. وباستخدام التعلم في السياق (in-context learning)، تحقق النماذج اللغوية الكبيرة نتائج مذهلة في مجموعة متنوعة من المهام اللغوية الطبيعية. ومع ذلك، يظل تطبيق النماذج اللغوية الكبيرة على تمثيل الجمل (sentence embeddings) مجالًا في طور البحث المستمر. في هذا العمل، نقترح طريقة تعتمد على التعلم في السياق تهدف إلى تحسين أداء تمثيل الجمل. يتضمن نهجنا تعديل الطريقة القائمة على النماذج المبنية على المُعدّل (prompt-based representation) الخاصة بالنماذج التوليدية التسلسلية، وإنشاء مجموعة توضيحية (demonstration set) تتيح للنماذج اللغوية الكبيرة تنفيذ التعلم في السياق، بالإضافة إلى توسيع حجم النموذج إلى أحجام مختلفة. من خلال تجارب واسعة النطاق، أظهر التعلم في السياق أن النماذج اللغوية الكبيرة قادرة على إنتاج تمثيلات جمل عالية الجودة دون أي تعديل دقيق (fine-tuning). كما ساعد هذا التعلم في تمكين النماذج من تحقيق أداء يقارب الأداء المُحقَّق بالأساليب الحالية القائمة على التعلم التبايني (contrastive learning). وبالنسبة لتوسيع حجم النموذج، لاحظنا أن التوسع إلى أكثر من عشرة مليارات من المعاملات يضر بالأداء في مهام التشابه النصي الدلالي (STS). ومع ذلك، فإن النموذج الأكبر يتفوق على جميع النماذج الأخرى، ويحقق نتيجة جديدة في مستوى الحالة الراهنة (state-of-the-art) في المهام المنقولة. كما قمنا بتعديل النماذج اللغوية الكبيرة باستخدام أسلوب التعلم التبايني الحالي، وتبين أن النموذج OPT بحجم 2.7 مليار معامل، عند دمج طريقة النموذج القائمة على النموذج التوضيحي (prompt-based method)، تفوق أداء النموذج ST5 بحجم 4.8 مليار معامل، وحققت نتيجة جديدة في مستوى الحالة الراهنة في مهام التشابه النصي الدلالي. يُمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/kongds/scaling_sentemb.