HyperAIHyperAI

Command Palette

Search for a command to run...

EdgeCRNN: نموذج موجه نحو الحوسبة الطرفية لتحسين الميزات الصوتية للكشف عن الكلمات المفتاحية

Yamin Wen Kai Ye Shunzhi Yang Zheng Gong Yungen Wei

الملخص

تمثّل تقنية تحديد الكلمات المفتاحية (Keyword Spotting - KWS) فرعًا مهمًا ضمن تقنية التعرف التلقائي على الكلام (ASR)، وقد تم استخدامها على نطاق واسع في الأجهزة الحافة (Edge Computing Devices). ويتمثل الهدف من KWS في تحقيق دقة عالية مع معدل إنذار خاطئ منخفض (FAR)، مع تقليل تكاليف الذاكرة والحساب والتأخير (Latency). ومع ذلك، فإن الموارد المحدودة تمثل تحديًا كبيرًا لتطبيقات KWS على الأجهزة الحافة. وقد حققت النماذج الخفيفة والهياكل المبنية على التعلم العميق نتائج ممتازة في مجال KWS، مع الحفاظ على كفاءة الأداء. في هذا البحث، نقدّم معمارية جديدة للشبكة العصبية التلافيفية التكرارية (Convolutional Recurrent Neural Network - CRNN) تُسمّى EdgeCRNN، مصممة خصيصًا للأجهزة الحافة. تعتمد EdgeCRNN على التحويل التباعدي العميق (Depthwise Separable Convolution) والهيكل المتفرع (Residual Structure)، وتستخدم طريقة مُحسّنة لاستخراج الميزات. وقد أظهرت النتائج التجريبية على مجموعة بيانات Google Speech Commands أن EdgeCRNN قادرة على معالجة 11.1 بيانات صوتية في الثانية على جهاز Raspberry Pi 3B+، أي ما يعادل 2.2 مرة أكثر من أداء Tpool2. وبالمقارنة مع Tpool2، بلغت دقة EdgeCRNN 98.05٪، مع الحفاظ على أداء تنافسي متميز.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp