HyperAIHyperAI
منذ 2 أشهر

g2pW:BERT مشروط مع وزن softmax للتمييز بين المعاني المتعددة في اللغة الصينية القياسية

Yi-Chang Chen; Yu-Chuan Chang; Yen-Cheng Chang; Yi-Ren Yeh
g2pW:BERT مشروط مع وزن softmax للتمييز بين المعاني المتعددة في اللغة الصينية القياسية
الملخص

توضيح متعدد الأصوات هو المهمة الأكثر حيوية في تحويل الرموز البصرية إلى الصوتية (G2P) للصينية القياسية. وقد تناولت الدراسات السابقة هذه المشكلة باستخدام نماذج اللغة المدربة مسبقًا، والقيود على الإخراج، والمعلومات الإضافية من تصنيف الأجزاء (POS). مستوحاةً من هذه الاستراتيجيات، نقترح نهجًا جديدًا يُسمى g2pW، والذي يكيف أوزان softmax القابلة للتعلم لضبط إخراج BERT مع الحرف متعدد الأصوات محل الاهتمام وتصنيفه الجزئي. بدلاً من استخدام القناع الصعب كما في الأعمال السابقة، تظهر تجاربنا أن تعلم دالة وزن مرن للحروف الصوتية المرشحة يفيد الأداء. بالإضافة إلى ذلك، لا يتطلب النهج المقترح g2pW أي نماذج تصنيف أجزاء مسبقة التدريب عند استخدام تصنيفات الأجزاء كميزات مساعدة، حيث نقوم بتدريب نموذج تصنيف الأجزاء بشكل متزامن مع الكودر الموحد. تظهر نتائج التجارب أن g2pW الخاص بنا يتفوق على الأساليب الموجودة في مجموعة البيانات العامة CPP. جميع الأكواد وأوزان النموذج والحزمة المستخدم ودية متاحة بشكل عام.

g2pW:BERT مشروط مع وزن softmax للتمييز بين المعاني المتعددة في اللغة الصينية القياسية | أحدث الأوراق البحثية | HyperAI