HyperAIHyperAI
منذ 17 أيام

التعلم المتبقّي المُبثّث للكشف الفعّال عن الكلمات المفتاحية

Byeonggeun Kim, Simyung Chang, Jinkyu Lee, Dooyong Sung
التعلم المتبقّي المُبثّث للكشف الفعّال عن الكلمات المفتاحية
الملخص

يُعدّ اكتشاف الكلمات المفتاحية مجالًا بحثيًا مهمًا نظرًا لأدواره الأساسية في تفعيل الأجهزة والتفاعل مع المستخدمين على الأجهزة الذكية. ومع ذلك، يُعدّ تقليل الأخطاء مع ضمان الأداء الفعّال في الأجهزة ذات الموارد المحدودة، مثل الهواتف المحمولة، تحديًا كبيرًا. نقدّم طريقة تعلم بقايا مُبثّة (broadcasted residual learning) لتحقيق دقة عالية مع حجم نموذج صغير وحمل حسابي منخفض. تُعدّ هذه الطريقة مصمّة لتهيئة معظم وظائف البقايا على شكل تحدّد تلقائي أحادي البعد (1D temporal convolution)، مع السماح في الوقت نفسه باستخدام التحدّد التلقائي ثنائي البعد (2D convolution) من خلال ارتباط بقايا مُبثّ (broadcasted-residual connection) الذي يوسع المخرجات الزمنية إلى بعد تردّدي-زمني. يمكّن هذا التمثيل الباقي الشبكة من تمثيل السمات الصوتية المفيدة بكفاءة عالية، وباستخدام حمل حسابي أقل بكثير من الشبكات العصبية التلقائية التقليدية. كما نقترح معمارية شبكة جديدة، تُسمّى شبكة البقايا المُبثّة (Broadcasting-residual network أو BC-ResNet)، مبنية على مبدأ التعلم بالبقايا المُبثّة، ونُوضّح كيفية توسيع النموذج وفقًا لموارد الجهاز المستهدف. تحقق نماذج BC-ResNet أداءً متقدمًا جدًا، بدرجة دقة أولى (top-1 accuracy) تبلغ 98.0% و98.7% على مجموعتي بيانات Google Speech Command الإصدار 1 والإصدار 2 على التوالي، وتفوق باستمرار الطرق السابقة، مع استخدام عدد أقل من العمليات الحسابية وعدد أقل من المعلمات. يُمكن الوصول إلى الشيفرة المصدرية عبر الرابط: https://github.com/Qualcomm-AI-research/bcresnet.