تحليل الدوائر الناخبة متعددة اللغات باستخدام الانتباه الذاتي والتدريب المسبق

نظهر أن تحليل التركيب النحوي يستفيد من التدريب غير المشرف عليه في مجموعة متنوعة من اللغات وفي نطاق من ظروف التدريب الأولي. نقارن أولاً بين فوائد عدم وجود تدريب أولي، وfastText، وELMo، وBERT للغة الإنجليزية، ونجد أن BERT يتفوق على ELMo بشكل كبير بفضل زيادة قدرة النموذج، بينما بدوره يتفوق ELMo على متجهات fastText غير السياقية. كما نجد أن التدريب الأولي مفيد لجميع الـ 11 لغة التي تم اختبارها؛ ومع ذلك,则大模型尺寸(超过1亿个参数)使得为每种语言单独训练模型在计算上非常昂贵。为了解决这一缺点,我们展示了联合多语言预训练和微调允许在最终模型中除少量参数外共享所有参数。与每种语言微调一个模型相比,模型大小减少了10倍,仅导致总体相对错误率增加了3.2%。我们进一步探讨了联合微调的概念,表明它为资源较少的语言提供了一种从其他语言的大数据集中受益的方法。最后,我们展示了11种语言的新最先进结果,包括英语(F1 = 95.8)和中文(F1 = 91.8)。为了更符合阿拉伯语的表达习惯,我将对上述翻译进行一些调整:نظهر أن تحليل التركيب النحوي يستفيد من التدريب غير المشرف عليه في مجموعة متنوعة من اللغات وفي نطاق من ظروف التدريب الأولي. نقارن أولاً بين فوائد عدم وجود تدريب أولي، ومتجهات fastText، ونموذج ELMo، ونموذج BERT للغة الإنجليزية، ونجد أن BERT يتفوق على ELMo بشكل كبير بفضل زيادة قدرته الحسابية، بينما بدوره يتفوق ELMo على متجهات fastText غير السياقية. كما نجد أن التدريب الأولي مفيد لجميع الـ 11 لغة التي تم اختبارها؛ ومع ذلك، فإن حجم النماذج الكبيرة (أكثر من 100 مليون معلمة) يجعل تدريب نماذج منفصلة لكل لغة باهظ الثمن من الناحية الحسابية. لمعالجة هذا القصور، نوضح أن التدريب الأولي متعدد اللغات المشترك والضبط الدقيق المشترك يسمحان بمشاركة جميع المعلمات تقريباً بين عشر لغات في النموذج النهائي. إن تخفيض حجم النموذج بمقدار عشرة أضعاف بالمقارنة مع ضبط دقيق لنموذج لكل لغة يؤدي إلى زيادة نسبة الخطأ النسبي الإجمالية بنسبة 3.2٪ فقط. نستكشف أيضاً فكرة الضبط الدقيق المشترك وأظهرنا أنها تعطي اللغات ذات الموارد المنخفضة طريقة للحصول على الفائدة من قواعد البيانات الكبيرة لللغات الأخرى. وأخيراً، نقدم أفضل النتائج المعروفة حتى الآن لأحد عشر لغة، بما في ذلك اللغة الإنجليزية (F1 = 95.8) واللغة الصينية (F1 = 91.8).