HyperAIHyperAI

Command Palette

Search for a command to run...

Ammortisierte neuronale Netzwerke für niedrige Latenz bei Spracherkennung

Jonathan Macoskey Grant P. Strimel Jinru Su Ariya Rastrow

Zusammenfassung

Wir stellen amortisierte neuronale Netzwerke (AmNets) vor, eine rechenkosten- und latenzbewusste Netzarchitektur, die sich besonders gut für Sequenzmodellierungsaufgaben eignet. Wir wenden AmNets auf den rekurrenten neuronalen Netztransduktor (RNN-T) an, um die Rechenkosten und Latenz für eine automatische Spracherkennung (ASR) zu reduzieren. Die AmNets-RNN-T-Architektur ermöglicht es dem Netzwerk, frame-basiert dynamisch zwischen verschiedenen Encoder-Zweigen zu wechseln. Die Zweige sind mit unterschiedlichen Rechenkosten und Modellkapazitäten konstruiert. Hierbei erreichen wir variable Rechenkosten für zwei etablierte Ansätze: eine Methode basierend auf sparsen Pruning-Techniken und eine andere, die auf Matrixfaktorisierung beruht. Der frame-basierte Wechsel wird durch ein Arbitrierungsnetzwerk gesteuert, das nur eine vernachlässigbare Rechenlast verursacht. Wir präsentieren Ergebnisse für beide Architekturen anhand der LibriSpeech-Daten und zeigen, dass unsere vorgeschlagene Architektur die Inferenzkosten um bis zu 45 % senken und die Latenz nahezu in Echtzeit reduzieren kann, ohne dabei an Genauigkeit zu verlieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ammortisierte neuronale Netzwerke für niedrige Latenz bei Spracherkennung | Paper | HyperAI