HyperAIHyperAI
منذ 2 أشهر

تعدين المجموعات المتوازية القائمة على الهامش باستخدام تمثيلات الجمل متعددة اللغات

Mikel Artetxe; Holger Schwenk
تعدين المجموعات المتوازية القائمة على الهامش باستخدام تمثيلات الجمل متعددة اللغات
الملخص

الترجمة الآلية حساسة للغاية لحجم وجودة بيانات التدريب، مما أدى إلى زيادة الاهتمام بجمع وتصفية مجموعات بيانات متوازية كبيرة. في هذا البحث، نقترح طريقة جديدة لهذه المهمة تعتمد على تمثيلات الجمل المتعددة اللغات. على عكس النهج السابقة التي تعتمد على استرجاع الجار الأقرب باستخدام حد عتبة صارم للتشابه القوسي، فإن طريقتنا المقترحة تأخذ في الاعتبار عدم اتساق مقاييس هذا التقييم، وتضع في الحسبان الهامش بين زوج جمل معين وأقرب المرشحين له بدلاً من ذلك. تظهر تجاربنا تحسينات كبيرة على الطرق الموجودة. فقد حققنا نتائج أفضل من أفضل النتائج المنشورة في مهمة التعدين BUCC (BUCC Mining Task) ومهمة إعادة بناء الأمم المتحدة (UN Reconstruction Task) بمقدار يزيد عن 10 نقاط F1 و30 نقطة دقة على التوالي. عند استخدام طريقتنا لتصفية مجموعة بيانات ParaCrawl الإنجليزية-الألمانية، حصلنا على 31.2 نقطة BLEU في اختبار الأخبار لعام 2014 (newstest2014)، وهو تحسن بمقدار يزيد عن نقطة واحدة مقارنة بأفضل إصدار رسمي مصفى.

تعدين المجموعات المتوازية القائمة على الهامش باستخدام تمثيلات الجمل متعددة اللغات | أحدث الأوراق البحثية | HyperAI