الطبقات المتبقية العميقة لإخراج اللغة العصبية

تستفيد العديد من المهام، بما في ذلك توليد اللغة، من تعلم بنية مساحة الإخراج، خاصة عندما تكون مساحة العلامات الإخراجية كبيرة والبيانات نادرة. يلتقط النماذج اللغوية العصبية الأكثر تقدماً بنية مساحة الإخراج بشكل غير مباشر في أوزان تصنيفاتها نظراً لعدم وجود تقاسم للمعلمات بين العلامات الإخراجية. يساعد تعلم الخرائط المشتركة للعلامات الإخراجية، ولكن الطرق الحالية لديها قدرة تعبير محدودة وعرضة للتكيف الزائد (overfitting). في هذا البحث، ندرس فائدة الخرائط المشتركة الأكثر قوة للعلامات الإخراجية، ونقترح خريطة إخراج عميقة بفائض (residual) مع إفلات (dropout) بين الطبقات لالتقاط بنية مساحة الإخراج بشكل أفضل وتجنب التكيف الزائد. أظهرت التقييمات على ثلاث مهام لتوليد اللغة أن خريطتنا للعلامات الإخراجية يمكن أن تتناسب أو تحسن الأداء عن الهياكل المتكررة (recurrent) وأحدث هياكل الانتباه الذاتي (self-attention)، مما يشير إلى أن المصنف لا يحتاج بالضرورة إلى أن يكون ذا رتبة عالية لنمذجة اللغة الطبيعية بشكل أفضل إذا كان أكثر كفاءة في التقاط بنية مساحة الإخراج.