ZEN: تدريب نصوص الصينية مسبقًا معززة بتمثيلات النغرام

تتم عملية التدريب المسبق لشفرات النص عادةً من خلال معالجة النص كسلسلة من الرموز التي تتوافق مع وحدات نصية صغيرة، مثل أجزاء الكلمات في اللغة الإنجليزية والأحرف في اللغة الصينية. ومع ذلك، فإن هذه العملية تتجاهل المعلومات التي تحملها الوحدات النصية الأكبر، مما يجعل الشفرات غير قادرة على التكيف بسهولة مع بعض تركيبات الأحرف. هذا يؤدي إلى فقدان معلومات دلالية مهمة، وهو ما يكون مشكلة خاصة بالنسبة للغة الصينية لأنها لا تحتوي على حدود كلمات صريحة. في هذا البحث، نقترح ZEN، وهو شفرة نصوص صينية (Z) تعتمد على BERT ومُحسَّنة باستخدام تمثيلات N-gram، حيث يتم النظر في تركيبات مختلفة للأحرف أثناء التدريب. نتيجة لذلك، يتم تدريب الحدود المحتملة لكلمات أو جمل بشكل صريح وتuningها مع شفرة الأحرف (BERT). وبذلك يدمج ZEN المعلومات الشاملة لكل من سلسلة الأحرف وكلمات أو الجمل التي تحتوي عليها. أظهرت نتائج التجارب فعالية ZEN في سلسلة من مهام المعالجة اللغوية الطبيعية للصينية. لقد بينا أن ZEN يمكنه تحقيق أفضل الأداء الحالي في معظم المهام باستخدام موارد أقل من تلك المستخدمة بواسطة الشفرات الأخرى المنشورة. بالإضافة إلى ذلك، أثبت أنه يمكن الحصول على أداء معقول عند تدريب ZEN على مكتبة بيانات صغيرة، وهو أمر مهم لتطبيق تقنيات التدريب المسبق في سياقات ذات بيانات محدودة. يمكن الوصول إلى رمز ZEN والنموذج المُدرَّب مسبقًا منه عبر الرابط: https://github.com/sinovation/zen.