HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers audio

Verma Prateek Berger Jonathan

Résumé

Au cours des deux dernières décennies, les architectures de réseaux de neurones convolutifs (CNN) ont permis de développer des modèles convaincants de perception et de cognition sonores, apprenant des organisations hiérarchiques de caractéristiques. Analogues aux succès obtenus en vision par ordinateur, la classification des caractéristiques audio peut être optimisée pour une tâche spécifique, sur une large variété de jeux de données et d’étiquettes. En effet, des architectures similaires conçues pour la compréhension d’images se sont avérées efficaces pour l’analyse des scènes sonores. Dans cet article, nous proposons d’appliquer des architectures fondées sur les Transformers, sans couches convolutionnelles, directement aux signaux audio bruts. Sur un jeu de données standard, Free Sound 50K, comprenant 200 catégories, notre modèle dépasse les modèles convolutionnels pour atteindre des résultats de pointe. Ce résultat est significatif, car contrairement au traitement du langage naturel et à la vision par ordinateur, nous n’effectuons pas de pré-entraînement non supervisé pour surpasser les architectures convolutionnelles. Sur le même ensemble d’entraînement, par rapport aux indicateurs de précision moyenne, nous démontrons une amélioration notable. Nous améliorons davantage les performances des architectures Transformer en utilisant des techniques telles que le pooling inspiré des réseaux convolutionnels développés au cours des dernières années. En outre, nous montrons comment des idées de traitement multi-taux inspirées des ondelettes peuvent être appliquées aux embeddings des Transformers afin d’améliorer les résultats. Enfin, nous illustrons comment nos modèles apprennent un banc de filtres non linéaire à largeur de bande variable, offrant ainsi une représentation adaptative temps-fréquence au niveau du prétraitement pour la tâche de compréhension audio, distincte de celle utilisée pour d’autres tâches, telles que l’estimation du ton.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformers audio | Articles | HyperAI