منذ 17 أيام

التدريب الأول لتكوين، ثم التكوين لتدريب: UnitedSynT5 للـ NLI بعينات قليلة

Sourav Banerjee, Anush Mahajan, Ayushi Agarwal, Eishkaran Singh

الملخص

تتطلب مهام الاستدلال باللغة الطبيعية (NLI) تحديد العلاقة بين أزواج الجمل، والتي تُصنف عادةً على أنها استدلال (entailment)، تناقض (contradiction)، أو تحيّز (neutrality). وعلى الرغم من أن النموذج الحاصل على أفضل أداء حاليًا (SOTA)، المعروف باسم التعلم القليل الاستدلال (EFL)، يحقق دقة تبلغ 93.1٪ على مجموعة بيانات الاستدلال باللغة الطبيعية في ستانفورد (SNLI)، فإن التطورات الإضافية تواجه قيودًا ناتجة عن محدوديات هذه المجموعة. وللتصدي لهذا التحدي، نقترح منهجية جديدة تعتمد على تكبير البيانات الاصطناعية لتعزيز تنوع وتعقيد المجموعة. نقدم نموذج "UnitedSynT5"، وهو تطوير متقدم لنظام EFL، يستخدم مولدًا مبنيًا على T5 لاستخلاص أزواج إضافية من الجمل المقدمة والفرضيات، والتي تُنقّى بدقة وتُدمج في بيانات التدريب. وتُعالج هذه الأمثلة الموسعة ضمن إطار EFL، حيث يتم دمج التصنيفات مباشرة في الفرضيات لضمان الاتساق. وتم تدريب نموذج GTR-T5-XL على هذه المجموعة الموسعة، مما أدى إلى تحقيق معيار جديد بدرجة دقة تبلغ 94.7٪ على مجموعة SNLI، و94.0٪ على مجموعة E-SNLI، و92.6٪ على مجموعة MultiNLI، متفوّقًا على النماذج السابقة ذات الأداء الأفضل. تُظهر هذه الدراسة الإمكانات الكبيرة لاستخدام تكبير البيانات الاصطناعية في تحسين نماذج الاستدلال باللغة الطبيعية، مقدمةً مسارًا واعدًا للتطورات المستقبلية في مهام فهم اللغة الطبيعية.