HyperAIHyperAI
منذ 14 أيام

إعادة تشكيل عائق التمثيل للحروف الصينية: الترجمة الآلية العصبية باستخدام نمذجة تسلسل الخطوط

Zhijun Wang, Xuebo Liu, Min Zhang
إعادة تشكيل عائق التمثيل للحروف الصينية: الترجمة الآلية العصبية باستخدام نمذجة تسلسل الخطوط
الملخص

تتعامل الأبحاث الحالية بشكل عام مع الحرف الصيني كوحدة تمثيلية أدنى. ومع ذلك، فإن تمثيل الحرف الصيني بهذه الطريقة يواجه عقبتين رئيسيتين: أولًا، عقبة التعلم، حيث لا يمكن للنظام الاستفادة من الخصائص الداخلية الغنية للحرف (مثل الجذور والخطوط الداخلية)؛ ثانيًا، عقبة المعلمات، حيث يجب تمثيل كل حرف منفرد بベكتور فريد. في هذه الورقة، نقدم طريقة تمثيل جديدة للحروف الصينية لتجاوز هذه العقبتين، تُعرف باسم StrokeNet، والتي تمثل الحرف الصيني من خلال تسلسل لاتيني للخطوط (مثلاً: "ao1 (مقعر)" إلى "ajaie"، و"tu1 (محدب)" إلى "aeaqe"). وبشكل محدد، تقوم StrokeNet بتحويل كل خط إلى حرف لاتيني محدد، مما يتيح للحروف الصينية المشابهة أن تحظى بتمثيلات لاتينية متشابهة. وباستخدام StrokeNet في الترجمة الآلية العصبية (NMT)، أصبح من الممكن تنفيذ العديد من التقنيات القوية التي لم تكن قابلة للتطبيق سابقًا على اللغات غير اللاتينية (مثل تعلم قاموس فرعي مشترك وتمديد البيانات القائمة على التشفير). أظهرت التجارب على مهام الترجمة الآلية العصبية الشهيرة NIST الصينية-الإنجليزية، وWMT17 الصينية-الإنجليزية، وIWSLT17 اليابانية-الإنجليزية، أن StrokeNet تحقق تحسينًا كبيرًا في الأداء مقارنة بالأساليب القوية السابقة، مع استخدام عدد أقل من المعلمات، حيث حققت 26.5 نقطة BLEU في مهمة WMT17 الصينية-الإنجليزية، وهي أفضل نتيجة مُبلغ عنها سابقًا دون استخدام بيانات لغوية منفصلة. تم إتاحة الشيفرة والأدوات البرمجية مجانًا على الرابط: https://github.com/zjwang21/StrokeNet.

إعادة تشكيل عائق التمثيل للحروف الصينية: الترجمة الآلية العصبية باستخدام نمذجة تسلسل الخطوط | أحدث الأوراق البحثية | HyperAI