HyperAIHyperAI
منذ 2 أشهر

g2pM: حزمة تحويل الرموز الكتابية إلى الصوتية العصبية للصينية القياسية بناءً على مجموعة بيانات معيارية مفتوحة جديدة

Kyubyong Park; Seanie Lee
g2pM: حزمة تحويل الرموز الكتابية إلى الصوتية العصبية للصينية القياسية بناءً على مجموعة بيانات معيارية مفتوحة جديدة
الملخص

تحويل الرموز الكتابية الصينية إلى الصوتية (G2P) هو مكون أساسي في أنظمة تحويل النص إلى كلام (TTS) باللغة الصينية القياسية. من أكبر التحديات في تحويل G2P للصينية هو كيفية توضيح نطق الكلمات المتعددة الأصوات - الحروف التي لها أكثر من نطق واحد. رغم الجهود الأكاديمية الكثيرة المبذولة لمعالجة هذا التحدي، لم يكن هناك حتى الآن مجموعة بيانات مفتوحة يمكن استخدامها كمعيار قياسي للمقارنة العادلة. بالإضافة إلى ذلك، فإن معظم الأنظمة المبلغ عنها تكون صعبة الاستخدام بالنسبة للباحثين أو الممارسين الذين يرغبون في تحويل النص الصيني إلى البيين (pinyin) بسهولة ويسر. انطلاقاً من هذه الدوافع، نقدم في هذا العمل مجموعة بيانات جديدة كمعيار مرجعي تتكون من أكثر من 99,000 جملة لتوضيح نطق الكلمات المتعددة الأصوات في اللغة الصينية. قمنا بتدريب نموذج شبكة عصبية بسيطة عليها، ووجدنا أن أدائه يتفوق على الأنظمة الأخرى القائمة سابقاً في مجال G2P. أخيراً، قمنا بتغليف مشروعنا ومشاركته على PyPi.

g2pM: حزمة تحويل الرموز الكتابية إلى الصوتية العصبية للصينية القياسية بناءً على مجموعة بيانات معيارية مفتوحة جديدة | أحدث الأوراق البحثية | HyperAI