Command Palette
Search for a command to run...
التصنيف التتابعي باستخدام تمثيلات الوحدات الفرعية السياقية وغير السياقية: تقييم متعدد اللغات
التصنيف التتابعي باستخدام تمثيلات الوحدات الفرعية السياقية وغير السياقية: تقييم متعدد اللغات
Benjamin Heinzerling Michael Strube
الملخص
باتت التمثيلات الفرعية المسبقة التدريب السياقية وغير السياقية متاحة في أكثر من 250 لغة، مما يسمح بمعالجة اللغات المتعددة بشكل ضخم في مجال معالجة اللغة الطبيعية. ومع ذلك، بينما لا توجد نقص في التمثيلات المسبقة التدريب، فإن النقص الواضح في التقييمات النظامية يجعل من الصعب على الممارسين اختيار ما بينها. في هذا العمل، نقوم بتقييم مكثف مقارن للتمثيلات الفرعية غير السياقية، وهي FastText و BPEmb (ببامب)، ولطريقة تمثيل سياقية وهي BERT (بيرت) في مجال تصنيف الكيانات المسماة والوسم الإعرابي متعدد اللغات. نجد أن بشكل عام، مزيج من BERT و BPEmb والتمثيلات الحرفية يعمل بشكل أفضل عبر اللغات والمهمات. تحليل أكثر تفصيلاً يكشف عن قوى وضعف مختلفة: فBERT متعدد اللغات يؤدي بشكل جيد في اللغات ذات الموارد المتوسطة إلى العالية، ولكنه يتفوق عليه التمثيلات الفرعية غير السياقية في البيئات ذات الموارد المنخفضة.