HyperAIHyperAI

Command Palette

Search for a command to run...

نمذجة اللغة باستخدام البكسلات

Phillip Rust Jonas F. Lotz Emanuele Bugliarello Elizabeth Salesky Miryam de Lhoneux Desmond Elliott

الملخص

تم تحديد النماذج اللغوية على مجموعة منتهية من المدخلات، مما يُحدث عقبة في المفردات عند محاولة توسيع عدد اللغات المدعومة. ويؤدي التصدي لهذه العقبة إلى تنازل بين ما يمكن تمثيله في مصفوفة التضمين والمشاكل الحسابية في الطبقة الناتجة. تقدم هذه الورقة نموذج PIXEL، وهو معالج صوري للغة (Pixel-based Encoder of Language)، والذي لا يعاني من أي من هذين المشكلين. يُعدّ PIXEL نموذجًا لغويًا مُدرّبًا مسبقًا يحوّل النصوص إلى صور، مما يمكّن من نقل التمثيلات بين اللغات استنادًا إلى التشابه الأورثوغرافي أو التنشيط المشترك للبكسلات. يتم تدريب PIXEL لإعادة بناء بكسلات القطع المُقنّعة بدلًا من التنبؤ بتوزيع على الرموز (tokens). تم تدريب نموذج PIXEL الذي يحتوي على 86 مليون معلمة على نفس البيانات الإنجليزية المستخدمة في BERT، ثم تم تقييمه على مهام نحوية ودلالية في لغات متنوعة من حيث التصنيف اللغوي، بما في ذلك مجموعة متنوعة من الخطوط غير اللاتينية. وجدنا أن PIXEL يتفوق بشكل كبير على BERT في المهام نحوية ودلالية بالنسبة للخطوط التي لا توجد في بيانات التدريب المسبق، لكن PIXEL يكون أضعف قليلاً من BERT عند التعامل مع الخطوط اللاتينية. علاوة على ذلك، وجدنا أن PIXEL أكثر مقاومة من BERT أمام الهجمات الأورثوغرافية والتحولات اللغوية (linguistic code-switching)، مما يؤكد بشكل إضافي فوائد تمثيل اللغة باستخدام البكسلات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نمذجة اللغة باستخدام البكسلات | مستندات | HyperAI