HyperAIHyperAI

Command Palette

Search for a command to run...

BAT: Boundary aware Transducer für speicher-effiziente und latenzarme ASR

Keyu An Xian Shi Shiliang Zhang

Zusammenfassung

Kürzlich gewinnt der rekurrente neuronale Netzwerk-Transduktor (RNN-T) aufgrund seiner natürlichen Streaming-Fähigkeit sowie seiner hervorragenden Leistung zunehmend an Beliebtheit. Dennoch erfordert das Training von RNN-T erhebliche Zeit- und Rechenressourcen, da die Berechnung der RNN-T-Verlustfunktion langsam ist und viel Speicherplatz verbraucht. Ein weiterer Nachteil von RNN-T besteht darin, dass er tendenziell mehr Kontextinformationen benötigt, um eine bessere Leistung zu erzielen, was in der Streaming-ASR zu einer höheren Emissionsverzögerung führt. In diesem Artikel stellen wir den boundary-aware transducer (BAT) vor, einen Ansatz zur speichereffizienten und latenzarmen ASR. Im BAT wird das Gitter für die RNN-T-Verlustberechnung auf einen eingeschränkten Bereich reduziert, der durch die Alignments aus dem kontinuierlichen Integrate-and-Fire (CIF)-Modell bestimmt wird, das gemeinsam mit dem RNN-T-Modell optimiert wird. Umfangreiche Experimente zeigen, dass BAT im Vergleich zu RNN-T die Zeit- und Speicherverbrauchsbelastung im Training erheblich reduziert und zugleich eine gute Balance zwischen CER und Latenz bei der Inferenz für die Streaming-ASR erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BAT: Boundary aware Transducer für speicher-effiziente und latenzarme ASR | Paper | HyperAI