Command Palette
Search for a command to run...
Ammortisierte neuronale Netzwerke für niedrige Latenz bei Spracherkennung
Ammortisierte neuronale Netzwerke für niedrige Latenz bei Spracherkennung
Jonathan Macoskey Grant P. Strimel Jinru Su Ariya Rastrow
Zusammenfassung
Wir stellen amortisierte neuronale Netzwerke (AmNets) vor, eine rechenkosten- und latenzbewusste Netzarchitektur, die sich besonders gut für Sequenzmodellierungsaufgaben eignet. Wir wenden AmNets auf den rekurrenten neuronalen Netztransduktor (RNN-T) an, um die Rechenkosten und Latenz für eine automatische Spracherkennung (ASR) zu reduzieren. Die AmNets-RNN-T-Architektur ermöglicht es dem Netzwerk, frame-basiert dynamisch zwischen verschiedenen Encoder-Zweigen zu wechseln. Die Zweige sind mit unterschiedlichen Rechenkosten und Modellkapazitäten konstruiert. Hierbei erreichen wir variable Rechenkosten für zwei etablierte Ansätze: eine Methode basierend auf sparsen Pruning-Techniken und eine andere, die auf Matrixfaktorisierung beruht. Der frame-basierte Wechsel wird durch ein Arbitrierungsnetzwerk gesteuert, das nur eine vernachlässigbare Rechenlast verursacht. Wir präsentieren Ergebnisse für beide Architekturen anhand der LibriSpeech-Daten und zeigen, dass unsere vorgeschlagene Architektur die Inferenzkosten um bis zu 45 % senken und die Latenz nahezu in Echtzeit reduzieren kann, ohne dabei an Genauigkeit zu verlieren.