HyperAIHyperAI

Command Palette

Search for a command to run...

Entraînement de détecteurs de mots-clés avec des données vocales limitées et synthétisées

James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi

Résumé

À la suite de l'essor des dispositifs à faible consommation dotés de fonctionnalités vocales, la demande croissante s'oriente vers la création rapide de modèles capables de reconnaître des ensembles arbitraires de mots-clés. Comme dans de nombreuses tâches d'apprentissage automatique, l'une des étapes les plus complexes dans le processus de conception de modèles consiste à obtenir une quantité suffisante de données d'entraînement. Dans cet article, nous étudions l'efficacité des données vocales synthétiques dans l'entraînement de modèles de détection de termes parlés de petite taille, d'environ 400 000 paramètres. Contrairement à l'entraînement direct sur les signaux audio ou sur des caractéristiques de bas niveau telles que les MFCC, nous utilisons un modèle pré-entraîné d'encodage vocal conçu pour extraire des caractéristiques pertinentes pour les modèles de détection de mots-clés. Grâce à cet encodage vocal, nous démontrons qu'un modèle capable de détecter 10 mots-clés, entraîné uniquement sur des données vocales synthétiques, atteint un niveau de performance équivalent à celui d'un modèle entraîné sur plus de 500 exemples réels. Nous montrons également qu'un modèle ne disposant pas de nos encodages vocaux devrait être entraîné sur plus de 4 000 exemples réels pour atteindre la même précision.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Entraînement de détecteurs de mots-clés avec des données vocales limitées et synthétisées | Articles | HyperAI