HyperAIHyperAI
vor 3 Monaten

Ammortisierte neuronale Netzwerke für niedrige Latenz bei Spracherkennung

Jonathan Macoskey, Grant P. Strimel, Jinru Su, Ariya Rastrow
Ammortisierte neuronale Netzwerke für niedrige Latenz bei Spracherkennung
Abstract

Wir stellen amortisierte neuronale Netzwerke (AmNets) vor, eine rechenkosten- und latenzbewusste Netzarchitektur, die sich besonders gut für Sequenzmodellierungsaufgaben eignet. Wir wenden AmNets auf den rekurrenten neuronalen Netztransduktor (RNN-T) an, um die Rechenkosten und Latenz für eine automatische Spracherkennung (ASR) zu reduzieren. Die AmNets-RNN-T-Architektur ermöglicht es dem Netzwerk, frame-basiert dynamisch zwischen verschiedenen Encoder-Zweigen zu wechseln. Die Zweige sind mit unterschiedlichen Rechenkosten und Modellkapazitäten konstruiert. Hierbei erreichen wir variable Rechenkosten für zwei etablierte Ansätze: eine Methode basierend auf sparsen Pruning-Techniken und eine andere, die auf Matrixfaktorisierung beruht. Der frame-basierte Wechsel wird durch ein Arbitrierungsnetzwerk gesteuert, das nur eine vernachlässigbare Rechenlast verursacht. Wir präsentieren Ergebnisse für beide Architekturen anhand der LibriSpeech-Daten und zeigen, dass unsere vorgeschlagene Architektur die Inferenzkosten um bis zu 45 % senken und die Latenz nahezu in Echtzeit reduzieren kann, ohne dabei an Genauigkeit zu verlieren.