il y a 6 mois

Résumé

Les méthodes d'extraction de caractéristiques audio et vocales ont fait l'objet de recherches depuis les travaux pionniers en analyse spectrale il y a plusieurs décennies. Les récents efforts s'inspirent de l'ambition de développer des représentations audio généralistes. Par exemple, les réseaux neuronaux profonds peuvent extraire des embeddings optimaux s'ils sont entraînés sur de grandes bases de données audio. Ce travail étend les méthodes existantes fondées sur l'apprentissage auto-supervisé par une approche de bootstrap, propose diverses architectures d'encodeurs et explore les effets de l'utilisation de différentes bases de données pour le pré-entraînement. Enfin, nous présentons un nouveau cadre d'entraînement permettant d’obtenir une représentation audio hybride, combinant des caractéristiques audio conçues manuellement et des caractéristiques apprises à partir de données. Toutes les représentations proposées ont été évaluées dans le cadre du défi HEAR NeurIPS 2021 portant sur la classification des scènes auditives et la détection de timestamps. Nos résultats indiquent que le modèle hybride utilisant un transformateur convolutif comme encodeur obtient des performances supérieures dans la majorité des tâches du défi HEAR.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Classification Audio

Apprentissage Profond

Domaine De Recherche

Audio

Tâche

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Classification Audio

Apprentissage Profond

Domaine De Recherche

Audio

Tâche

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

BYOL-S : Apprentissage de représentations vocales auto-supervisées par bootstrap

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

BYOL-S : Apprentissage de représentations vocales auto-supervisées par bootstrap

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

BYOL-S : Apprentissage de représentations vocales auto-supervisées par bootstrap

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters