EfficientNet-Absolute Zero pour la détection continue de mots-clés dans la parole

La détection de mots-clés est un processus permettant de repérer des mots ou expressions spécifiques dans des discours enregistrés à l’aide d’ordinateurs. Les algorithmes basés sur les réseaux de neurones profonds, en tant que moteur puissant, peuvent traiter cette tâche si ceux-ci sont entraînés sur un jeu de données approprié. À cette fin, le jeu de données de mots-clés football (FKD), nouveau jeu de données dédié à la détection de mots-clés en persan, a été collecté grâce à une approche de crowdsourcing. Ce jeu de données comprend près de 31 000 échantillons répartis en 18 catégories. Une méthode de synthèse de parole continue a été proposée afin de rendre le FKD utilisable dans des applications pratiques fonctionnant avec des discours continus. Par ailleurs, nous avons proposé une architecture légère appelée EfficientNet-A0 (absolute zero), obtenue en appliquant la méthode d’échelle combinée à EfficientNet-B0 pour la tâche de détection de mots-clés. Enfin, l’architecture proposée a été évaluée en comparaison avec divers modèles. Il s’est révélé que les modèles EfficientNet-A0 et ResNet surpassent les autres modèles sur ce jeu de données.