HyperAIHyperAI
منذ 2 أشهر

ترجمة الآلة العصبية للكلمات النادرة باستخدام الوحدات الفرعية للكلمات

Rico Sennrich; Barry Haddow; Alexandra Birch
ترجمة الآلة العصبية للكلمات النادرة باستخدام الوحدات الفرعية للكلمات
الملخص

تُعَمِّل نماذج الترجمة الآلية العصبية (NMT) عادةً مع مفردات ثابتة، ولكن الترجمة هي مشكلة ذات مفردات مفتوحة. قد عالجت الدراسات السابقة مشكلة ترجمة الكلمات خارج المفردات عن طريق الرجوع إلى القاموس. في هذا البحث، نقدم طريقة أبسط وأكثر فعالية، مما يجعل نموذج NMT قادرًا على الترجمة ذات المفردات المفتوحة من خلال ترميز الكلمات النادرة والغير معروفة كسلسلة من الوحدات الفرعية للمفردة. وهذا يعتمد على الحدس بأن مختلف فئات الكلمات قابلة للترجمة عبر وحدات أصغر من الكلمات، مثل الأسماء (عبر نسخ الحروف أو التحويل الصوتي)، والمركبات (عبر الترجمة التركيبية)، والألفاظ المشتركة والمعارة (عبر التحولات الصوتية والصرفية). نناقش ملاءمة تقنيات مختلفة لتقسيم الكلمات، بما في ذلك نماذج النغرام البسيطة للحروف وتقسيم يستند إلى خوارزمية ضغط زوج البايت (byte pair encoding)، ونظهر بشكل تجريبي أن النماذج الفرعية للمفردة تحسن الأداء على أساس القاموس الاحتياطي في مهمتي الترجمة WMT 15 من الإنجليزية إلى الألمانية ومن الإنجليزية إلى الروسية بمقدار 1.1 و1.3 نقطة BLEU على التوالي.

ترجمة الآلة العصبية للكلمات النادرة باستخدام الوحدات الفرعية للكلمات | أحدث الأوراق البحثية | HyperAI