منذ 6 أشهر

الملخص

تقدم هذه الورقة معمولًا هجينًا جديدًا للكشف عن النشاط الصوتي (VAD) يدمج بين طبقات الشبكة العصبية التلافيفية (CNN) وطبقات الذاكرة الطويلة القصيرة الأحادية الاتجاه (BiLSTM)، والتي تم تدريبها بطريقة متكاملة من البداية إلى النهاية. وبالإضافة إلى ذلك، نركز بشكل خاص على تحسين الكفاءة الحسابية لمعماريتنا، بهدف تحقيق أداءً قويًا في ظروف ضوضاء صعبة في البيئات الطبيعية (in-the-wild)، ضمن بيئة محدودة الموارد بشكل شديد. تم استخدام تقنية التحقق المتقاطع الكُثّر المُدمج (Nested k-fold cross-validation) لاستكشاف فضاء المعاملات، كما نناقش التوازن بين المعاملات المثلى وحجم النموذج. كما تم النظر في تأثير استخدام طبقة BiLSTM مقارنةً بطبقة LSTM أحادية الاتجاه. قمنا بمقارنة أنظمتنا مع ثلاث قواعد معيارية مُثبتة على مجموعة بيانات AVA-Speech. وجدنا أن النماذج الأصغر بشكل ملحوظ، والتي تمتلك معاملات قريبة من المثالية، تحقق أداءً مماثلاً للنماذج الأكبر التي تم تدريبها باستخدام المعاملات المثلى. أظهرت طبقات BiLSTM تحسنًا في الدقة مقارنةً بالطبقات الأحادية الاتجاه بمتوسط قدره حوالي 2% مطلقًا. وبمقياس مساحة تحت المنحنى (AUC) بلغ 0.951، تفوق نظامنا على جميع القواعد المعيارية، بما في ذلك نظام ResNet الأكبر حجمًا، وبشكل خاص في ظروف الضوضاء الصعبة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار