HyperAIHyperAI
il y a 2 mois

Flux Auditifs Lents-Rapides Pour la Reconnaissance Audio

Kazakos, Evangelos ; Nagrani, Arsha ; Zisserman, Andrew ; Damen, Dima
Flux Auditifs Lents-Rapides Pour la Reconnaissance Audio
Résumé

Nous proposons un réseau de neurones convolutif à deux flux pour la reconnaissance audio, qui opère sur des entrées de spectrogrammes temps-fréquence. En nous inspirant des succès similaires dans le domaine de la reconnaissance visuelle, nous apprenons des flux auditifs Lents-Rapides avec des convolutions séparables et des connexions latérales multiniveaux. Le flux Lent dispose d'une grande capacité de canaux tandis que le flux Rapide fonctionne à une résolution temporelle fine. Nous mettons en évidence l'importance de notre proposition à deux flux sur deux jeux de données variés : VGG-Sound et EPIC-KITCHENS-100, et obtenons des résultats d'état de l'art sur les deux.