Seq-U-Net: شبكة U-Net ذات البعد الواحد للنمذجة التسلسلية الفعالة

شبكات العصبونات التلافيفية (CNNs) ذات المرشحات الممتدة مثل WaveNet أو الشبكة التلافيفية الزمنية (TCN) أظهرت نتائج جيدة في مجموعة متنوعة من مهام نمذجة التسلسلات. ومع ذلك، فإن نمذجة الارتباطات طويلة الأجل في هذه التسلسلات لا تزال تمثل تحديًا. رغم أن مجال الاستقبال لهذه النماذج ينمو بشكل أساسي مع زيادة عدد الطبقات، فإن حساب التلافيف على سلاسل ميزات طويلة للغاية في كل طبقة يستغرق وقتًا وذاكرة كبيرين، مما يمنع استخدام مجالات استقبال أطول في الممارسة العملية. لزيادة الكفاءة، نستفيد من فرضية "الميزات البطيئة" التي تشير إلى أن العديد من الميزات ذات الاهتمام تتغير ببطء مع مرور الوقت. لهذا الغرض، نستخدم هندسة U-Net التي تقوم بحساب الميزات على نطاقات زمنية متعددة ونكيفها لموقفنا الذاتي الانحداري عن طريق جعل التلافيف سببية. نطبق نموذجنا ("Seq-U-Net") على مجموعة متنوعة من المهام بما في ذلك إنشاء اللغة وإنشاء الصوت. بالمقارنة مع TCN وWaveNet، يوفر شبكتنا باستمرار الذاكرة والوقت الحاسوبي، مع تسريع تدريب الشبكة والاستدلال بمقدار أكثر من 4 أضعاف في تجربة إنشاء الصوت بشكل خاص، بينما تحقق أداءً مشابهًا في جميع المهام.