منذ 2 أشهر
التعلم التتابعي باستخدام الشبكات الإدراكية المتلافهة
Jonas Gehring; Michael Auli; David Grangier; Denis Yarats; Yann N. Dauphin

الملخص
النهج السائد في تعلم التسلسل إلى تسلسل يربط سلسلة المدخلات بسلسلة مخرجات ذات طول متغير من خلال الشبكات العصبية المتكررة. نقدم هندسة معتمدة بالكامل على الشبكات العصبية التلافيفية. بالمقارنة مع النماذج المتكررة، يمكن توازي جميع الحسابات على عناصر المدخلات بشكل كامل أثناء التدريب، وتسهيل التحسين لأن عدد الدوال غير الخطية ثابت مستقل عن طول المدخلات. استخدامنا للوحدات الخطية المشروطة يسهل انتشار التدرج، ونزوّد كل طبقة من طبقات الفكoder بوحدة انتباه منفصلة. نتفوق على دقة نموذج LSTM العميق لـ Wu et al. (2016) في كل من ترجمة الإنجليزية-الألمانية وترجمة الإنجليزية-الفرنسية لـ WMT'14 بمعدل أسرع بمقدار عُشر الزمن، سواءً على الوحدات المعالجة الرسومية (GPU) أو الوحدات المعالجة المركزية (CPU).