Filtres de convolution interprétables avec SincNet

L'apprentissage profond joue actuellement un rôle crucial dans l'atteinte de niveaux supérieurs d'intelligence artificielle. Ce paradigme permet aux réseaux neuronaux d'apprendre des représentations complexes et abstraites, qui sont progressivement obtenues en combinant des représentations plus simples. Cependant, les représentations internes « boîte noire » automatiquement découvertes par les architectures neuronales actuelles souffrent souvent d'un manque d'interprétabilité, ce qui rend l'étude des techniques d'apprentissage automatique explicable d'un intérêt primordial. Cet article résume nos efforts récents pour développer un modèle neuronal plus interprétable capable de traiter directement le discours à partir du signal brut. En particulier, nous proposons SincNet, un nouveau type de Réseau Neuronal Convolutif (CNN) qui favorise la découverte de filtres plus significatifs au niveau de la première couche en exploitant des fonctions sinc paramétrées. Contrairement aux CNNs standards, qui apprennent tous les éléments de chaque filtre, seules les fréquences de coupure basses et hautes des filtres passe-bande sont apprises directement à partir des données. Ce biais inductif offre une manière très compacte de dériver une partie frontale banque de filtres personnalisée, qui ne dépend que de quelques paramètres ayant une signification physique claire. Nos expériences, menées tant sur la reconnaissance des locuteurs que sur la reconnaissance du discours, montrent que l'architecture proposée converge plus rapidement, performe mieux et est plus interprétable que les CNNs standards.