المسافة الجغرافية هي المعلمة الفائقة الجديدة: دراسة حالة لتحديد اللغة المدربة مسبقًا المثلى للترجمة الآلية من الإنجليزية إلى isiZulu

بسبب عدم توفر المجموعات的数据集和文本资源有限的问题,例如对于isiZulu(祖鲁语)这类低资源语言,有必要利用预训练模型的知识来改善低资源机器翻译的效果。此外,缺乏处理形态丰富语言复杂性的技术加剧了翻译模型发展的不平等,导致许多广泛使用的非洲语言被忽视。本研究探讨了在英语-isiZulu翻译框架中迁移学习的潜在好处。结果表明,从密切相关语言进行迁移学习可以提高低资源翻译模型的性能,从而为未来的低资源翻译提供了一种关键策略。我们从8个不同的语言语料库中收集了结果,包括一个多种语言语料库,并发现isiXhosa-isiZulu(科萨-祖鲁语)的表现优于所有其他语言,在测试集上的BLEU得分为8.56,比多种语言语料库预训练模型高出2.73。我们还推导出一个新的系数——Nasir's Geographical Distance Coefficient (NGDC)(纳西尔地理距离系数),该系数为选择预训练模型的语言提供了简便的方法。NGDC还指出,isiXhosa(科萨语)应该是预训练模型的选择语言。修正后的翻译:نظراً لعدم توفر المجموعات البيانات والنماذج النصية بشكل كافٍ للغات ذات الموارد المحدودة مثل اللغة الإيزولو، هناك حاجة ملحة للاستفادة من المعرفة المستخرجة من النماذج المدربة مسبقًا لتحسين الترجمة الآلية للغات ذات الموارد المحدودة. بالإضافة إلى ذلك، فقد أدت نقص التقنيات اللازمة للتعامل مع تعقيدات اللغات الغنية بالمورفولوجيا إلى تفاقم عدم تكافؤ تطوير نماذج الترجمة، مما أدى إلى تخلف العديد من اللغات الأفريقية الشائعة الاستخدام. يهدف هذا البحث إلى استكشاف الفوائد المحتملة للمتعلم النقل في إطار الترجمة من الإنجليزية إلى الإيزولو. وقد أشارت النتائج إلى قيمة استخدام المتعلم النقل من اللغات المرتبطة ارتباطاً وثيقاً لتعزيز أداء نماذج الترجمة ذات الموارد المحدودة، وبالتالي توفير استراتيجية رئيسية للترجمة ذات الموارد المحدودة مستقبلاً. قمنا بجمع النتائج من ثماني م corpuses لغوية مختلفة، بما في ذلك Corpus متعدد اللغات واحد، ووجدنا أن اللغة الإيسيخوسا-الإيزولو (Kosah-Zulu) قد تفوقت على جميع اللغات الأخرى، حيث حققت درجة BLEU قدرها 8.56 على مجموعة الاختبار، وهي أفضل بمقدار 2.73 من نموذج التعلم العميق الذي تم تدريبه على Corpus متعدد اللغات. كما قمنا باشتقاق معامل جديد يُسمى معامل المسافة الجغرافية لناسير (Nasir's Geographical Distance Coefficient - NGDC)، والذي يوفر طريقة سهلة لاختيار اللغات لنماذج التعلم العميق. وقد أشار NGDC أيضاً إلى أنه يجب اختيار اللغة الإيسيخوسا (Kosah) كلغة لنموذج التعلم العميق.为了更好地符合阿拉伯语的表达习惯和正式风格,以下是进一步优化的版本:نظرًا لعدم توفر البيانات والمصادر النصية بشكل كافٍ للغات ذات المصادر القليلة مثل اللغة الإيزولو، فإن هناك حاجة ملحة لاستخدام النماذج السابقة التدريب لتوفير معرفة يمكن الاستفادة منها في تحسين جودة الترجمة الآلية لهذه اللغات. بالإضافة إلى ذلك، فقد أدت صعوبة التعامل مع تعقيدات اللغات الغنية بالمورفولوجيا إلى زيادة الفروق في تطور نماذج الترجمة الآلية، مما أدى إلى إهمال العديد من اللغات الأفريقية المنتشرة على نطاق واسع.يهدف هذا البحث إلى دراسة فوائد التعليم بالنقل (transfer learning) في إطار الترجمة بين الإنجليزية والإيزولو. وقد أظهرت النتائج القيمة الكبيرة التي يمكن الحصول عليها من خلال التعليم بالنقل بين اللغات المرتبطة ارتباطًا وثيقًا لتحسين أداء نماذج الترجمة ذات المصادر القليلة، مما يجعل هذه الاستراتيجية حيوية للترجمة المستقبلية لهذه النوعية من اللغات.في هذا السياق، تم جمع بيانات من ثماني مجموعات بيانات مختلفة تتضمن مجموعة بيانات متعددة اللغويين (multilingual corpus). وأظهرت البيانات أن اللغة الإيسيخوسا-الإيزولو حققت أفضل الأداء بين جميع اللغات الأخرى بتحقيقها درجة BLEU قدرها 8.56 على مجموعة الاختبار الخاصة بها، والتي كانت أعلى بمقدار 2.73 نقطة مقارنة بنموذج التعليم السابق المتعدد اللغويين.بالإضافة إلى ذلك، تم اشتقاق معامل جديد يُطلق عليه "معامل المسافة الجغرافية لناسير" (Nasir's Geographical Distance Coefficient - NGDC)، وهو يوفر طريقة سهلة ومباشرة لاختيار اللغات المناسبة لنماذج التعليم السابق. وقد أشار المعامل أيضًا إلى أن اللغة الإيسيخوسا هي الخيار الأمثل لتلك العملية.请注意,在阿拉伯文中,“多语料库”被译为“مجموعة بيانات متعددة اللغويين”,“新系数”被译为“معامل جديد”,并且对一些专有名词进行了注释以保持信息完整性。同时调整了一些句子结构以适应阿拉伯语的表达习惯。