Command Palette
Search for a command to run...
Flux Auditifs Lents-Rapides Pour la Reconnaissance Audio
Flux Auditifs Lents-Rapides Pour la Reconnaissance Audio
Evangelos Kazakos Arsha Nagrani Andrew Zisserman Dima Damen
Résumé
Nous proposons un réseau de neurones convolutif à deux flux pour la reconnaissance audio, qui opère sur des entrées de spectrogrammes temps-fréquence. En nous inspirant des succès similaires dans le domaine de la reconnaissance visuelle, nous apprenons des flux auditifs Lents-Rapides avec des convolutions séparables et des connexions latérales multiniveaux. Le flux Lent dispose d'une grande capacité de canaux tandis que le flux Rapide fonctionne à une résolution temporelle fine. Nous mettons en évidence l'importance de notre proposition à deux flux sur deux jeux de données variés : VGG-Sound et EPIC-KITCHENS-100, et obtenons des résultats d'état de l'art sur les deux.