HyperAIHyperAI

Command Palette

Search for a command to run...

SG-VAD: اكتشاف نشاط الكلام القائم على أبواب عشوائية

Jonathan Svirsky Ofir Lindenbaum

الملخص

نُقدّم نموذجًا جديدًا للكشف عن النشاط الصوتي (VAD) في بيئة موارد منخفضة. وتكمن الفكرة الأساسية لدينا في معالجة مهمة الكشف عن النشاط الصوتي كمهمة إزالة ضوضاء، وبناء شبكة مصممة لتحديد الميزات المزعجة المتعلقة بمهام تصنيف الكلام. ونُدرّب النموذج على تحديد الميزات غير ذات صلة في الوقت نفسه الذي يتنبأ فيه بنوع حدث الكلام. يحتوي النموذج على 7.8 ألف معلمة فقط، ويتفوّق على الطرق المُقترحة سابقًا على مجموعة تقييم AVA-Speech، ويُقدّم نتائج مُقارنة جيدة على مجموعة بيانات HAVIC. ونقدّم في هذا العمل بنية النموذج، ونتائج التجارب، ودراسة التحليل التجريبي لمكونات النموذج. ونُنشر الكود والنماذج هنا: https://www.github.com/jsvir/vad.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp