تعلم مراقب من تمثيلات الجمل الشاملة من بيانات الاستدلال اللغوي

تعتمد العديد من أنظمة المعالجة اللغوية الطبيعية الحديثة على تمثيلات الكلمات (word embeddings) التي تم تدريبها بطريقة غير مراقبة على مجموعات بيانات كبيرة كمميزات أساسية. ومع ذلك، لم تكن الجهود الرامية إلى الحصول على تمثيلات لقطع نص أكبر، مثل الجمل، ناجحة بنفس الدرجة. لم تصل العديد من المحاولات لتعلم تمثيلات غير مراقبة للجمل إلى مستوى الأداء المرضي الكافي لتكون معتمدة بشكل واسع. في هذا البحث، نوضح كيف يمكن لتمثيلات الجمل الشاملة التي يتم تدريبها باستخدام البيانات المراقبة من مجموعة بيانات الاستدلال اللغوي الطبيعي لجامعة ستانفورد أن تتخطى باستمرار طرق التعلم غير المراقبة مثل متجهات SkipThought في مجموعة واسعة من مهمات النقل. تماماً كما يستخدم الرؤية الحاسوبية ImageNet للحصول على مميزات يمكن نقلها إلى مهام أخرى، فإن عملنا يشير إلى صلاحية الاستدلال اللغوي الطبيعي للتعلم النقل إلى مهام أخرى في مجال المعالجة اللغوية الطبيعية. إن كودرنا متاح للجمهور.