نمذجة اللغة باستخدام البكسلات

تم تحديد النماذج اللغوية على مجموعة منتهية من المدخلات، مما يُحدث عقبة في المفردات عند محاولة توسيع عدد اللغات المدعومة. ويؤدي التصدي لهذه العقبة إلى تنازل بين ما يمكن تمثيله في مصفوفة التضمين والمشاكل الحسابية في الطبقة الناتجة. تقدم هذه الورقة نموذج PIXEL، وهو معالج صوري للغة (Pixel-based Encoder of Language)، والذي لا يعاني من أي من هذين المشكلين. يُعدّ PIXEL نموذجًا لغويًا مُدرّبًا مسبقًا يحوّل النصوص إلى صور، مما يمكّن من نقل التمثيلات بين اللغات استنادًا إلى التشابه الأورثوغرافي أو التنشيط المشترك للبكسلات. يتم تدريب PIXEL لإعادة بناء بكسلات القطع المُقنّعة بدلًا من التنبؤ بتوزيع على الرموز (tokens). تم تدريب نموذج PIXEL الذي يحتوي على 86 مليون معلمة على نفس البيانات الإنجليزية المستخدمة في BERT، ثم تم تقييمه على مهام نحوية ودلالية في لغات متنوعة من حيث التصنيف اللغوي، بما في ذلك مجموعة متنوعة من الخطوط غير اللاتينية. وجدنا أن PIXEL يتفوق بشكل كبير على BERT في المهام نحوية ودلالية بالنسبة للخطوط التي لا توجد في بيانات التدريب المسبق، لكن PIXEL يكون أضعف قليلاً من BERT عند التعامل مع الخطوط اللاتينية. علاوة على ذلك، وجدنا أن PIXEL أكثر مقاومة من BERT أمام الهجمات الأورثوغرافية والتحولات اللغوية (linguistic code-switching)، مما يؤكد بشكل إضافي فوائد تمثيل اللغة باستخدام البكسلات.