Interpretabele Faltungsfiltre mit SincNet

Tiefes Lernen spielt derzeit eine entscheidende Rolle bei der Erreichung höherer Niveaus künstlicher Intelligenz. Dieses Paradigma ermöglicht es neuronalen Netzen, komplexe und abstrakte Darstellungen zu erlernen, die schrittweise durch die Kombination einfacherer Darstellungen gewonnen werden. Dennoch leiden die internen "Black-Box"-Darstellungen, die von aktuellen neuronalen Architekturen automatisch entdeckt werden, oft an einem Mangel an Interpretierbarkeit. Dies macht die Untersuchung von erklärbaren Maschinelles-Lernen-Techniken zu einem primären Interessensgebiet. In diesem Artikel fasst uns zusammen unsere jüngsten Bemühungen zur Entwicklung eines interpretierbareren neuronalen Modells für die direkte Verarbeitung von Sprache aus dem Rohsignal. Insbesondere schlagen wir SincNet vor, ein neues Faltungsneuronales Netzwerk (CNN), das den ersten Schicht dazu anregt, bedeutendere Filter durch den Einsatz parametrisierter sinc-Funktionen zu entdecken. Im Gegensatz zu herkömmlichen CNNs, die alle Elemente jedes Filters lernen, werden nur die unteren und oberen Grenzfrequenzen von Bandpassfiltern direkt aus den Daten gelernt. Diese induktive Verzerrung bietet einen sehr kompakten Weg, um eine angepasste Filterbank-Schnittstelle abzuleiten, die nur von einigen Parametern abhängt, deren physikalische Bedeutung klar ist. Unsere Experimente, sowohl im Bereich der Sprecheraufnahme als auch der Spracherkennung durchgeführt, zeigen, dass die vorgeschlagene Architektur schneller konvergiert, bessere Leistungen erzielt und interpretierbarer ist als herkömmliche CNNs.