بحث معمّق في البنية العصبية الفعّالة للإعراب الصوتي من البداية إلى النهاية باستخدام مشتقات مستقيمة

يُعدّ البحث عن الهيكل العصبي (Neural Architecture Search - NAS)، أي عملية أتمتة هندسة الهياكل، خطوةً واعدة مُستقبلية في تطوير نظام التعرف التلقائي على الكلام (ASR) من الطرف إلى الطرف، حيث يُستبدل الشبكات المصممة يدويًا من قبل الخبراء بهياكل مُتعلّمة ومُصمّمة خصيصًا للوظيفة. على عكس الأساليب المبكرة لـ NAS التي كانت تتطلب حسابات مكثفة، فإن الأساليب الحديثة القائمة على التدرج (gradient-based NAS)، مثل DARTS (Differentiable ARchiTecture Search) و SNAS (Stochastic NAS) و ProxylessNAS، قد عزّزت بشكل كبير كفاءة عملية البحث عن الهيكل. في هذه الورقة، نقدّم مساهمتين رئيسيتين. أولاً، نطوّر بطريقة صارمة منهجًا فعّالًا لـ NAS باستخدام التدرجات المباشرة (Straight-Through - ST)، ونسمّيه ST-NAS. بشكل أساسي، يستخدم ST-NAS دالة الخسارة من SNAS، لكنه يُطبّق التدرجات المباشرة (ST) لنقل التدرجات عبر المتغيرات المنفصلة (discrete variables) بهدف تحسين الدالة، وهو ما لم يُكشف عنه في ProxylessNAS. ويعتبر استخدام التدرجات المباشرة لدعم عينات المخطط الجزئي (sub-graph sampling) عنصرًا أساسيًا لتحقيق كفاءة في البحث عن الهيكل تتجاوز ما تقدمه DARTS و SNAS. ثانيًا، نُطبّق بنجاح ST-NAS على نظام التعرف التلقائي على الكلام من الطرف إلى الطرف. وتبين النتائج التي أُجريت على مجموعتي بيانات معياريّتين شائعتين، وهما 80 ساعة من بيانات WSJ و300 ساعة من بيانات Switchboard، أن الهياكل الناتجة عن ST-NAS تتفوّق بشكل ملحوظ على الهياكل المصممة يدويًا في كلا المجموعتين. كما نُشرت ميزات قوة ST-NAS، مثل قابلية نقل الهيكل (architecture transferability) وتكاليف الحساب المنخفضة من حيث الذاكرة والوقت.