تعلم تمثيلات الجمل الموزعة العامة من خلال التعلم متعدد المهام على نطاق واسع

لقد ساهمت التمثيلات المتجهية الموزعة للكلمات التي تم تدريبها على كميات كبيرة من النصوص بطريقة غير مراقبة في الكثير من النجاحات الحديثة في معالجة اللغة الطبيعية (NLP). يتم استخدام هذه التمثيلات عادةً كخصائص عامة للكلمات في مجموعة متنوعة من مشاكل NLP. ومع ذلك، فإن توسيع هذا النجاح لتعلم تمثيلات تسلسل الكلمات، مثل الجمل، لا يزال مشكلة مفتوحة. لقد استكشفت الدراسات الحديثة تقنيات التعلم غير المراقبة والمرقابة بتدريب أهداف مختلفة لتعلم تمثيلات جمل ثابتة الطول ذات غرض عام. في هذا البحث، نقدم إطارًا بسيطًا وفعالًا للتعلم متعدد المهام لتمثيلات الجمل يجمع بين الانحيازات الاستقرائية لأهداف التدريب المختلفة في نموذج واحد. نقوم بتدريب هذا النموذج على عدة مصادر بيانات بأهداف تدريب متعددة على أكثر من 100 مليون جملة. تظهر التجارب الواسعة أن مشاركة مُشفِّر جمل متكرر واحد عبر مهمات ذات صلة ضعيفة يؤدي إلى تحسينات مستمرة على الطرق السابقة. نقدم تحسينات كبيرة في سياق التعلم بالنقل وفي البيئات ذات الموارد المنخفضة باستخدام تمثيلاتنا العامة المُتعلَّمة.