HyperAIHyperAI
منذ 11 أيام

SG-VAD: اكتشاف نشاط الكلام القائم على أبواب عشوائية

Jonathan Svirsky, Ofir Lindenbaum
SG-VAD: اكتشاف نشاط الكلام القائم على أبواب عشوائية
الملخص

نُقدّم نموذجًا جديدًا للكشف عن النشاط الصوتي (VAD) في بيئة موارد منخفضة. وتكمن الفكرة الأساسية لدينا في معالجة مهمة الكشف عن النشاط الصوتي كمهمة إزالة ضوضاء، وبناء شبكة مصممة لتحديد الميزات المزعجة المتعلقة بمهام تصنيف الكلام. ونُدرّب النموذج على تحديد الميزات غير ذات صلة في الوقت نفسه الذي يتنبأ فيه بنوع حدث الكلام. يحتوي النموذج على 7.8 ألف معلمة فقط، ويتفوّق على الطرق المُقترحة سابقًا على مجموعة تقييم AVA-Speech، ويُقدّم نتائج مُقارنة جيدة على مجموعة بيانات HAVIC. ونقدّم في هذا العمل بنية النموذج، ونتائج التجارب، ودراسة التحليل التجريبي لمكونات النموذج. ونُنشر الكود والنماذج هنا: https://www.github.com/jsvir/vad.

SG-VAD: اكتشاف نشاط الكلام القائم على أبواب عشوائية | أحدث الأوراق البحثية | HyperAI