HyperAIHyperAI

Command Palette

Search for a command to run...

HTS-AT : Un Transformateur Audio Hiérarchique Token-Sémantique pour la Classification et la Détection Sonores

Ke Chen Xingjian Du Bilei Zhu Zejun Ma Taylor Berg-Kirkpatrick Shlomo Dubnov

Résumé

La classification audio est une tâche essentielle consistant à mapper des échantillons audio à leurs étiquettes correspondantes. Récemment, les modèles transformer basés sur des mécanismes d’attention auto-attention ont été adoptés dans ce domaine. Toutefois, les transformateurs audio existants nécessitent une grande mémoire GPU et des temps d’entraînement longs, tout en s’appuyant sur des modèles préentraînés visionnels pour atteindre de hautes performances, ce qui limite leur scalabilité dans les tâches audio. Pour surmonter ces problèmes, nous proposons HTS-AT : un transformateur audio à structure hiérarchique permettant de réduire la taille du modèle et le temps d’entraînement. Ce modèle est complété par un module token-sémantique qui mappe les sorties finales en cartes de caractéristiques de classe, permettant ainsi au modèle de détecter des événements audio (c’est-à-dire de localiser ces événements dans le temps). Nous évaluons HTS-AT sur trois jeux de données de classification audio, où il atteint de nouveaux états de l’art (SOTA) sur AudioSet et ESC-50, et égale le SOTA sur Speech Command V2. Il obtient également de meilleures performances en localisation d’événements que les modèles précédents basés sur des réseaux de neurones convolutifs (CNN). En outre, HTS-AT nécessite seulement 35 % des paramètres du modèle et 15 % du temps d’entraînement par rapport au transformateur audio précédent. Ces résultats démontrent l’efficacité et la haute performance de HTS-AT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp