مُحَوِّل المفتاح: نموذج انتباه ذاتي للكشف عن الكلمات المفتاحية

لقد حققت بنية المُحَوِّل (Transformer) نجاحًا كبيرًا في العديد من المجالات، بما في ذلك معالجة اللغة الطبيعية والرؤية الحاسوبية وتمييز الصوت. في مهمة اكتشاف الكلمات المفتاحية، تم استخدام الانتباه الذاتي بشكل رئيسي فوق مشغلات تلافيفية أو متكررة. نستعرض مجموعة من الطرق لتكيف بنية المُحَوِّل مع مهمة اكتشاف الكلمات المفتاحية، ونقدّم ما يُعرف بـ "مُحَوِّل الكلمة المفتاحية" (Keyword Transformer أو KWT)، وهي بنية بالكامل تعتمد على الانتباه الذاتي، وتفوق الأداء الحالي في العديد من المهام دون الحاجة إلى التدريب المسبق أو استخدام بيانات إضافية. من المثير للاستغراب أن هذه البنية البسيطة تتفوّق على نماذج أكثر تعقيدًا التي تدمج بين الطبقات التلافيفية والمتكررة والانتباهية. يمكن استخدام KWT كبديل مباشر لهذه النماذج، حيث سجّل هذا النموذج رقمين قياسيين جديدين على مجموعة بيانات Google Speech Commands، بتحقيق دقة بلغت 98.6% و97.7% على مهام تضم 12 و35 كلمة مفتاحية على التوالي.