HyperAIHyperAI
il y a 2 mois

EfficientLEAF : Une Interface Audio Apprenable Plus Rapide d'Utilité Discutable

Schlüter, Jan ; Gutenbrunner, Gerald
EfficientLEAF : Une Interface Audio Apprenable Plus Rapide d'Utilité Discutable
Résumé

Dans le domaine de la classification audio, les bancs de filtres auditifs différentiables avec peu de paramètres occupent une position intermédiaire entre les spectrogrammes codés en dur et l'audio brut. LEAF (arXiv:2101.08596), un banc de filtres basé sur les fonctions de Gabor combinées à la Normalisation d'Énergie par Canal (PCEN), a montré des résultats prometteurs, mais il est coûteux sur le plan computationnel. En utilisant des tailles et des pas de convolution inhomogènes et en remplaçant le PCEN par des opérations mieux parallélisables, nous pouvons atteindre des résultats similaires de manière plus efficace. Dans des expériences menées sur six tâches de classification audio, notre frontend atteint une précision comparable à celle de LEAF à seulement 3% du coût, mais ni l'un ni l'autre ne parviennent à surpasser systématiquement un banc de filtres mel fixe. La quête d'une frontend audio apprenable n'est donc pas encore résolue.

EfficientLEAF : Une Interface Audio Apprenable Plus Rapide d'Utilité Discutable | Articles de recherche récents | HyperAI