HyperAIHyperAI

Command Palette

Search for a command to run...

BAT: محول مُدرك للحدود لـ ASR بكفاءة في الذاكرة وتأخير منخفض

Keyu An Xian Shi Shiliang Zhang

الملخص

في الآونة الأخيرة، اكتسب نموذج التحويل الشبكي العصبي التكراري (RNN-T) شعبية متزايدة بفضل قدرته الطبيعية على المعالجة التدفقية، بالإضافة إلى أداؤه المتفوق. ومع ذلك، يتطلب تدريب نموذج RNN-T موارد زمنية وحسابية كبيرة، نظرًا لبطء عملية حساب خسارة RNN-T واستهلاكها الكبير للذاكرة. كما أن لنموذج RNN-T عيبًا آخر يتمثل في اتجاهه إلى استكشاف سياقات أكثر لتحقيق أداء أفضل، مما يؤدي إلى تأخير إصدار (emission latency) أعلى في أنظمة التعرف على الكلام التدفقية (streaming ASR). في هذا البحث، نقترح نموذج التحويل المُدرك للحدود (Boundary-aware Transducer - BAT) لتحقيق تعرف على الكلام التدفقي بكفاءة في استخدام الذاكرة وبنسبة تأخير منخفضة. في نموذج BAT، يتم تقليل الشبكة (lattice) المستخدمة في حساب خسارة RNN-T إلى منطقة محدودة تم اختيارها بناءً على التوقيت الناتج عن نموذج التكامل والانفجار المستمر (Continuous Integrate-and-Fire - CIF)، والذي يتم تحسينه بشكل مشترك مع نموذج RNN-T. أظهرت التجارب الواسعة أن BAT يقلل بشكل كبير من استهلاك الوقت والذاكرة أثناء التدريب مقارنة بنموذج RNN-T، ويحقق توازنًا جيدًا بين معدل الخطأ في الترميز (CER) ودرجة التأخير أثناء الاستدلال في أنظمة التعرف على الكلام التدفقية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp