HyperAIHyperAI

Command Palette

Search for a command to run...

BYOL-S : Apprentissage de représentations vocales auto-supervisées par bootstrap

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

Résumé

Les méthodes d'extraction de caractéristiques audio et vocales ont fait l'objet de recherches depuis les travaux pionniers en analyse spectrale il y a plusieurs décennies. Les récents efforts s'inspirent de l'ambition de développer des représentations audio généralistes. Par exemple, les réseaux neuronaux profonds peuvent extraire des embeddings optimaux s'ils sont entraînés sur de grandes bases de données audio. Ce travail étend les méthodes existantes fondées sur l'apprentissage auto-supervisé par une approche de bootstrap, propose diverses architectures d'encodeurs et explore les effets de l'utilisation de différentes bases de données pour le pré-entraînement. Enfin, nous présentons un nouveau cadre d'entraînement permettant d’obtenir une représentation audio hybride, combinant des caractéristiques audio conçues manuellement et des caractéristiques apprises à partir de données. Toutes les représentations proposées ont été évaluées dans le cadre du défi HEAR NeurIPS 2021 portant sur la classification des scènes auditives et la détection de timestamps. Nos résultats indiquent que le modèle hybride utilisant un transformateur convolutif comme encodeur obtient des performances supérieures dans la majorité des tâches du défi HEAR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp