HyperAIHyperAI
منذ 2 أشهر

التشويش الزمني للكشف الفوري عن الكلمات المفتاحية على الأجهزة المحمولة

Seungwoo Choi; Seokjun Seo; Beomjun Shin; Hyeongmin Byun; Martin Kersner; Beomsu Kim; Dongyoung Kim; Sungjoo Ha
التشويش الزمني للكشف الفوري عن الكلمات المفتاحية على الأجهزة المحمولة
الملخص

يقوم التعرف على الكلمات المفتاحية (KWS) بدور حاسم في تمكين التفاعلات الصوتية بين المستخدم والأجهزة الذكية. أدت التطورات الحديثة في مجال التعلم العميق إلى تبني الشبكات العصبية المتلافهة (CNNs) بشكل واسع في أنظمة KWS نظرًا لدقتها الاستثنائية ومتانتها. تحدي رئيسي يواجه أنظمة KWS هو التوازن بين الدقة العالية والتأخير المنخفض. للأسف، لم يتم إجراء الكثير من التحليلات الكمية للتأخير الفعلي لأنماط KWS على الأجهزة المحمولة. وهذا أمر مثير للقلق بشكل خاص، حيث إن الأساليب التقليدية القائمة على التلافيف للـ KWS معروفة بأنها تتطلب عددًا كبيرًا من العمليات لتحقيق مستوى كافٍ من الأداء. في هذا البحث، نقترح استخدام التلافيف الزمنية لتنفيذ KWS في الوقت الحقيقي على الأجهزة المحمولة. بخلاف معظم الأساليب القائمة على التلافيف ثنائية الأبعاد التي تتطلب بنية عميقة لتغطية المجالات ذات الترددات المنخفضة والمرتفعة بالكامل، نستغل التلافيف الزمنية مع بنية ResNet مدمجة. في مجموعة بيانات أوامر الكلام من جوجل، حققنا سرعة تزيد عن \textbf{385 مرة} على جهاز جوجل بكسل 1 وأفضلت دقتنا مقارنة بأحدث النماذج المعروفة. بالإضافة إلى ذلك، قمنا بإطلاق تنفيذ النماذج المقترحة والنماذج الأساسية، والتي تشمل خط الأنابيب الكامل لتدريب النماذج وتقييمها على الأجهزة المحمولة.