HyperAIHyperAI
منذ 17 أيام

BAT: محول مُدرك للحدود لـ ASR بكفاءة في الذاكرة وتأخير منخفض

Keyu An, Xian Shi, Shiliang Zhang
BAT: محول مُدرك للحدود لـ ASR بكفاءة في الذاكرة وتأخير منخفض
الملخص

في الآونة الأخيرة، اكتسب نموذج التحويل الشبكي العصبي التكراري (RNN-T) شعبية متزايدة بفضل قدرته الطبيعية على المعالجة التدفقية، بالإضافة إلى أداؤه المتفوق. ومع ذلك، يتطلب تدريب نموذج RNN-T موارد زمنية وحسابية كبيرة، نظرًا لبطء عملية حساب خسارة RNN-T واستهلاكها الكبير للذاكرة. كما أن لنموذج RNN-T عيبًا آخر يتمثل في اتجاهه إلى استكشاف سياقات أكثر لتحقيق أداء أفضل، مما يؤدي إلى تأخير إصدار (emission latency) أعلى في أنظمة التعرف على الكلام التدفقية (streaming ASR). في هذا البحث، نقترح نموذج التحويل المُدرك للحدود (Boundary-aware Transducer - BAT) لتحقيق تعرف على الكلام التدفقي بكفاءة في استخدام الذاكرة وبنسبة تأخير منخفضة. في نموذج BAT، يتم تقليل الشبكة (lattice) المستخدمة في حساب خسارة RNN-T إلى منطقة محدودة تم اختيارها بناءً على التوقيت الناتج عن نموذج التكامل والانفجار المستمر (Continuous Integrate-and-Fire - CIF)، والذي يتم تحسينه بشكل مشترك مع نموذج RNN-T. أظهرت التجارب الواسعة أن BAT يقلل بشكل كبير من استهلاك الوقت والذاكرة أثناء التدريب مقارنة بنموذج RNN-T، ويحقق توازنًا جيدًا بين معدل الخطأ في الترميز (CER) ودرجة التأخير أثناء الاستدلال في أنظمة التعرف على الكلام التدفقية.