HyperAIHyperAI
vor 17 Tagen

BAT: Boundary aware Transducer für speicher-effiziente und latenzarme ASR

Keyu An, Xian Shi, Shiliang Zhang
BAT: Boundary aware Transducer für speicher-effiziente und latenzarme ASR
Abstract

Kürzlich gewinnt der rekurrente neuronale Netzwerk-Transduktor (RNN-T) aufgrund seiner natürlichen Streaming-Fähigkeit sowie seiner hervorragenden Leistung zunehmend an Beliebtheit. Dennoch erfordert das Training von RNN-T erhebliche Zeit- und Rechenressourcen, da die Berechnung der RNN-T-Verlustfunktion langsam ist und viel Speicherplatz verbraucht. Ein weiterer Nachteil von RNN-T besteht darin, dass er tendenziell mehr Kontextinformationen benötigt, um eine bessere Leistung zu erzielen, was in der Streaming-ASR zu einer höheren Emissionsverzögerung führt. In diesem Artikel stellen wir den boundary-aware transducer (BAT) vor, einen Ansatz zur speichereffizienten und latenzarmen ASR. Im BAT wird das Gitter für die RNN-T-Verlustberechnung auf einen eingeschränkten Bereich reduziert, der durch die Alignments aus dem kontinuierlichen Integrate-and-Fire (CIF)-Modell bestimmt wird, das gemeinsam mit dem RNN-T-Modell optimiert wird. Umfangreiche Experimente zeigen, dass BAT im Vergleich zu RNN-T die Zeit- und Speicherverbrauchsbelastung im Training erheblich reduziert und zugleich eine gute Balance zwischen CER und Latenz bei der Inferenz für die Streaming-ASR erreicht.