إيفينتنت-نِت زِرو مُطلق للبحث المستمر عن كلمات مفتاحية في الكلام الصوتي

إن استشعار الكلمات المفتاحية هو عملية تُستخدم فيها الحواسيب للعثور على كلمات أو عبارات محددة ضمن محاضرات مسجلة. وتشكل خوارزميات الشبكات العصبية العميقة، بوصفها محركًا قويًا، أداة فعّالة لحل هذه المشكلة عند تدريبها على مجموعة بيانات مناسبة. ولتحقيق ذلك، تم جمع مجموعة بيانات جديدة تُعرف باسم "مجموعة بيانات الكلمات المفتاحية في كرة القدم" (FKD)، وهي مجموعة بيانات مخصصة لاستشعار الكلمات المفتاحية باللغة الفارسية، وذلك عبر منهجية التجميع الجماعي (crowdsourcing). وتحتوي هذه المجموعة على ما يقارب 31000 عينة موزعة على 18 فئة. كما تم اقتراح أسلوب لتخليق الكلام المستمر لجعل مجموعة بيانات FKD قابلة للاستخدام في التطبيقات العملية التي تعتمد على الكلام المستمر. علاوةً على ذلك، قمنا بتطوير بنية خفيفة الوزن تُسمى EfficientNet-A0 (الصفر المطلق)، وذلك من خلال تطبيق منهج التوسيع المركب (compound scaling) على الموديل EfficientNet-B0، بهدف تحسين أداء استشعار الكلمات المفتاحية. وأخيرًا، تم تقييم البنية المقترحة باستخدام عدة نماذج مختلفة، وقد أظهرت النتائج أن نموذجي EfficientNet-A0 وResNet يتفوقان على النماذج الأخرى في هذه المجموعة.