HyperAIHyperAI
منذ 4 أشهر

توسيع الترجمة العصبية الآلية

Myle Ott; Sergey Edunov; David Grangier; Michael Auli
توسيع الترجمة العصبية الآلية
الملخص

ما زالت نماذج التعلم من تسلسل إلى تسلسل بحاجة إلى عدة أيام للوصول إلى أداء متميز على مجموعات بيانات المعايير الكبيرة باستخدام جهاز واحد. يظهر هذا البحث أن خفض الدقة وتدريب الدفعات الكبيرة يمكن أن يسرع التدريب بمقدار حوالي 5 مرات على جهاز واحد به 8 معالجات رسومية (GPUs) مع ضبط دقيق وتنفيذ محكم. في مهمة الترجمة من الإنجليزية إلى الألمانية في تحدي WMT'14، نحن نتوافق مع دقة Vaswani et al. (2017) في أقل من 5 ساعات عند التدريب على 8 معالجات رسومية، ونحصل على مستوى جديد متميز بلغة 29.3 BLEU بعد التدريب لمدة 85 دقيقة على 128 معالجًا رسوميًا. نحسن هذه النتائج بشكل إضافي إلى 29.8 BLEU عن طريق التدريب على مجموعة البيانات الأكبر بكثير Paracrawl. في مهمة الترجمة من الإنجليزية إلى الفرنسية في تحدي WMT'14، نحن نحصل على مستوى متميز جديد بلغة 43.2 BLEU في غضون 8.5 ساعات على 128 معالجًا رسوميًا.