HyperAIHyperAI

Command Palette

Search for a command to run...

كاشف نشاط الصوت الهجين CNN-BiLSTM

Nicholas Wilkinson Thomas Niesler

الملخص

تقدم هذه الورقة معمولًا هجينًا جديدًا للكشف عن النشاط الصوتي (VAD) يدمج بين طبقات الشبكة العصبية التلافيفية (CNN) وطبقات الذاكرة الطويلة القصيرة الأحادية الاتجاه (BiLSTM)، والتي تم تدريبها بطريقة متكاملة من البداية إلى النهاية. وبالإضافة إلى ذلك، نركز بشكل خاص على تحسين الكفاءة الحسابية لمعماريتنا، بهدف تحقيق أداءً قويًا في ظروف ضوضاء صعبة في البيئات الطبيعية (in-the-wild)، ضمن بيئة محدودة الموارد بشكل شديد. تم استخدام تقنية التحقق المتقاطع الكُثّر المُدمج (Nested k-fold cross-validation) لاستكشاف فضاء المعاملات، كما نناقش التوازن بين المعاملات المثلى وحجم النموذج. كما تم النظر في تأثير استخدام طبقة BiLSTM مقارنةً بطبقة LSTM أحادية الاتجاه. قمنا بمقارنة أنظمتنا مع ثلاث قواعد معيارية مُثبتة على مجموعة بيانات AVA-Speech. وجدنا أن النماذج الأصغر بشكل ملحوظ، والتي تمتلك معاملات قريبة من المثالية، تحقق أداءً مماثلاً للنماذج الأكبر التي تم تدريبها باستخدام المعاملات المثلى. أظهرت طبقات BiLSTM تحسنًا في الدقة مقارنةً بالطبقات الأحادية الاتجاه بمتوسط قدره حوالي 2% مطلقًا. وبمقياس مساحة تحت المنحنى (AUC) بلغ 0.951، تفوق نظامنا على جميع القواعد المعيارية، بما في ذلك نظام ResNet الأكبر حجمًا، وبشكل خاص في ظروف الضوضاء الصعبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كاشف نشاط الصوت الهجين CNN-BiLSTM | مستندات | HyperAI