HyperAIHyperAI

Command Palette

Search for a command to run...

En faveur de l'apprentissage de métriques pour la reconnaissance vocale

Joon Son Chung Jaesung Huh Seongkyu Mun Minjae Lee Hee Soo Heo Soyeon Choe Chiheon Ham Sunghwan Jung Bong-Jin Lee Icksang Han

Résumé

L'objectif de cet article est la reconnaissance vocale « à ensemble ouvert » de locuteurs inconnus, dans laquelle les embeddings idéaux devraient pouvoir condenser l'information en une représentation compacte au niveau de l'énoncé, caractérisée par une faible distance intra-parleur et une grande distance inter-parleur. Une croyance répandue en reconnaissance vocale est que les réseaux entraînés avec des objectifs de classification surpassent les méthodes d'apprentissage de métriques. Dans cet article, nous présentons une évaluation approfondie des fonctions de perte les plus courantes pour la reconnaissance vocale sur le jeu de données VoxCeleb. Nous démontrons que la perte triplet classique affiche des performances compétitives par rapport aux fonctions de perte basées sur la classification, et que les modèles entraînés selon notre nouvel objectif d'apprentissage de métriques surpassent les méthodes de pointe actuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp