Ammortisierte neuronale Netzwerke für niedrige Latenz bei Spracherkennung

Wir stellen amortisierte neuronale Netzwerke (AmNets) vor, eine rechenkosten- und latenzbewusste Netzarchitektur, die sich besonders gut für Sequenzmodellierungsaufgaben eignet. Wir wenden AmNets auf den rekurrenten neuronalen Netztransduktor (RNN-T) an, um die Rechenkosten und Latenz für eine automatische Spracherkennung (ASR) zu reduzieren. Die AmNets-RNN-T-Architektur ermöglicht es dem Netzwerk, frame-basiert dynamisch zwischen verschiedenen Encoder-Zweigen zu wechseln. Die Zweige sind mit unterschiedlichen Rechenkosten und Modellkapazitäten konstruiert. Hierbei erreichen wir variable Rechenkosten für zwei etablierte Ansätze: eine Methode basierend auf sparsen Pruning-Techniken und eine andere, die auf Matrixfaktorisierung beruht. Der frame-basierte Wechsel wird durch ein Arbitrierungsnetzwerk gesteuert, das nur eine vernachlässigbare Rechenlast verursacht. Wir präsentieren Ergebnisse für beide Architekturen anhand der LibriSpeech-Daten und zeigen, dass unsere vorgeschlagene Architektur die Inferenzkosten um bis zu 45 % senken und die Latenz nahezu in Echtzeit reduzieren kann, ohne dabei an Genauigkeit zu verlieren.