منذ 2 أشهر

التصنيف التتابعي باستخدام تمثيلات الوحدات الفرعية السياقية وغير السياقية: تقييم متعدد اللغات

Benjamin Heinzerling; Michael Strube

الملخص

باتت التمثيلات الفرعية المسبقة التدريب السياقية وغير السياقية متاحة في أكثر من 250 لغة، مما يسمح بمعالجة اللغات المتعددة بشكل ضخم في مجال معالجة اللغة الطبيعية. ومع ذلك، بينما لا توجد نقص في التمثيلات المسبقة التدريب، فإن النقص الواضح في التقييمات النظامية يجعل من الصعب على الممارسين اختيار ما بينها. في هذا العمل، نقوم بتقييم مكثف مقارن للتمثيلات الفرعية غير السياقية، وهي FastText و BPEmb (ببامب)، ولطريقة تمثيل سياقية وهي BERT (بيرت) في مجال تصنيف الكيانات المسماة والوسم الإعرابي متعدد اللغات. نجد أن بشكل عام، مزيج من BERT و BPEmb والتمثيلات الحرفية يعمل بشكل أفضل عبر اللغات والمهمات. تحليل أكثر تفصيلاً يكشف عن قوى وضعف مختلفة: فBERT متعدد اللغات يؤدي بشكل جيد في اللغات ذات الموارد المتوسطة إلى العالية، ولكنه يتفوق عليه التمثيلات الفرعية غير السياقية في البيئات ذات الموارد المنخفضة.