Command Palette
Search for a command to run...
DITING: إطار تقييم متعدد الوكلاء لتقييم ترجمة الروايات الويب
Enze Zhang Jiaying Wang Mengxi Xiao Jifei Liu Ziyan Kuang Rui Dong Eric Dong Sophia Ananiadou Min Peng Qianqian Xie

الملخص
أحرزت النماذج اللغوية الكبيرة (LLMs) تقدماً كبيراً في ترجمة الآلات (MT)، إلا أن فعاليتها في ترجمة الروايات الإلكترونية ما زالت غير واضحة. تعتمد المعايير الحالية على مقاييس سطحية لا تُجسّد السمات المميزة لهذا النوع الأدبي. ولسد هذه الفجوات، نُقدّم DITING، وهي أول منظومة تقييم شاملة لترجمة الروايات الإلكترونية، وتقيّم الولاء السردي والثقافي عبر ستة أبعاد: ترجمة التعبيرات العامية، وحل الغموض اللفظي، وتكييف المصطلحات، واتساق الزمن، وحل المُضَمَّنات المُحذوفة للضمائر، والأمان الثقافي، مع دعمها بزوج من 18 ألف زوجاً من الجمل الصينية-الإنجليزية المُعلَّقة خبراءً. كما نقترح AgentEval، وهي منظومة تقييم متعددة الوكلاء تعتمد على الاستدلال، تُحاكي التشاور الخبيري لتقييم جودة الترجمة خارج نطاق التداخل اللفظي، وتُحقّق أعلى ارتباط مع التقييم البشري بين سبعة مقاييس تلقائية تم اختبارها. ولتمكين المقارنة بين المقاييس، نطوّر MetricAlign، وهي مجموعة بيانات تقييمية عليا (Meta-evaluation) مكوّنة من 300 زوج من الجمل، مُعلّقة بعلامات الأخطاء ودرجات كمية للجودة. وقد كشف التقييم الشامل لארבע عشرة نماذج مفتوحة المصدر، ومقفلة، وتجارية، أن النماذج التي تم تدريبها على اللغة الصينية تتفوّق على نظيراتها الأجنبية الأكبر حجماً، وأن نموذج DeepSeek-V3 يقدم الترجمات الأكثر وفاةً واتساقاً أسلوبياً. ويُشكّل هذا العمل نموذجاً جديداً لاستكشاف ترجمة الروايات الإلكترونية القائمة على النماذج اللغوية الكبيرة، ويقدّم موارد عامة لدفع عجلة الأبحاث المستقبلية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.