ACES: مجموعات تحدي دقة الترجمة لتقييم مقاييس الترجمة الآلية

مع تحسن دقة مقاييس الترجمة الآلية (MT) في التوافق مع التقييم البشري كل عام، أصبح من الضروري فهم القيود المرتبطة بهذه المقاييس على مستوى القطعة النصية. وتحديدًا، من المهم دراسة سلوك هذه المقاييس عند مواجهة أخطاء الدقة في الترجمة الآلية، نظرًا لأن هذه الأخطاء قد تؤدي إلى عواقب خطيرة في سياقات معينة (مثل السياقات القانونية أو الطبية). نُعدّ مجموعة التحدي ACES، وهي مجموعة تجريبية لاختبار دقة الترجمة، تضم 68 ظاهرة تمتد من التغيرات البسيطة على مستوى الحرف أو الكلمة إلى أخطاء أكثر تعقيدًا تستند إلى السياق النصي والمعرفة الواقعية. نستخدم مجموعة ACES لتقييم طيف واسع من مقاييس الترجمة الآلية، بما في ذلك المساهمات في مهمة مشاركة مقاييس WMT 2022، ونُجري تحليلات متعددة تؤدي إلى توصيات عامة للمطورين الذين يعملون على تطوير هذه المقاييس. ونوصي بما يلي: أ) دمج مقاييس تمتلك نقاط قوة مختلفة، ب) تطوير مقاييس تُعطي وزنًا أكبر للنص المصدري، ووزنًا أقل للتشابه السطحي مع النص المرجعي، ج) نمذجة معلومات إضافية محددة باللغة بشكل صريح، خارج ما يوفره التمثيل المتعدد اللغات (multilingual embeddings).