Command Palette
Search for a command to run...
كاشف نشاط الصوت الهجين CNN-BiLSTM
كاشف نشاط الصوت الهجين CNN-BiLSTM
Nicholas Wilkinson Thomas Niesler
الملخص
تقدم هذه الورقة معمولًا هجينًا جديدًا للكشف عن النشاط الصوتي (VAD) يدمج بين طبقات الشبكة العصبية التلافيفية (CNN) وطبقات الذاكرة الطويلة القصيرة الأحادية الاتجاه (BiLSTM)، والتي تم تدريبها بطريقة متكاملة من البداية إلى النهاية. وبالإضافة إلى ذلك، نركز بشكل خاص على تحسين الكفاءة الحسابية لمعماريتنا، بهدف تحقيق أداءً قويًا في ظروف ضوضاء صعبة في البيئات الطبيعية (in-the-wild)، ضمن بيئة محدودة الموارد بشكل شديد. تم استخدام تقنية التحقق المتقاطع الكُثّر المُدمج (Nested k-fold cross-validation) لاستكشاف فضاء المعاملات، كما نناقش التوازن بين المعاملات المثلى وحجم النموذج. كما تم النظر في تأثير استخدام طبقة BiLSTM مقارنةً بطبقة LSTM أحادية الاتجاه. قمنا بمقارنة أنظمتنا مع ثلاث قواعد معيارية مُثبتة على مجموعة بيانات AVA-Speech. وجدنا أن النماذج الأصغر بشكل ملحوظ، والتي تمتلك معاملات قريبة من المثالية، تحقق أداءً مماثلاً للنماذج الأكبر التي تم تدريبها باستخدام المعاملات المثلى. أظهرت طبقات BiLSTM تحسنًا في الدقة مقارنةً بالطبقات الأحادية الاتجاه بمتوسط قدره حوالي 2% مطلقًا. وبمقياس مساحة تحت المنحنى (AUC) بلغ 0.951، تفوق نظامنا على جميع القواعد المعيارية، بما في ذلك نظام ResNet الأكبر حجمًا، وبشكل خاص في ظروف الضوضاء الصعبة.