HyperAI

Résumé

Cet article explore l'application du cadre wav2vec2 à la reconnaissance d'locuteur, au lieu de la reconnaissance vocale. Nous étudions l'efficacité des poids pré-entraînés sur la tâche de reconnaissance d'locuteur, ainsi que les méthodes de regroupement (pooling) de la séquence de sorties wav2vec2 en une représentation fixe de l'locuteur (speaker embedding). Pour adapter le cadre à la reconnaissance d'locuteur, nous proposons une variante de classification à utterance unique utilisant une fonction de perte CE ou AAM softmax, ainsi qu'une variante de classification par paires d'utterances basée sur une perte BCE. La meilleure variante, w2v2-aam, atteint un taux d'erreur équivalent (EER) de 1,88 % sur l'ensemble de test étendu VoxCeleb1, contre 1,69 % obtenu par une base ECAPA-TDNN. Le code est disponible à l'adresse suivante : https://github.com/nikvaessen/w2v2-speaker.

Résumé

Nik Vaessen David A. van Leeuwen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Nik Vaessen David A. van Leeuwen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Nik Vaessen David A. van Leeuwen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

L'ajustement fin de wav2vec2 pour la reconnaissance d'orateur

Nik Vaessen David A. van Leeuwen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

L'ajustement fin de wav2vec2 pour la reconnaissance d'orateur

Nik Vaessen David A. van Leeuwen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

L'ajustement fin de wav2vec2 pour la reconnaissance d'orateur

Nik Vaessen David A. van Leeuwen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters