HyperAIHyperAI
vor 17 Tagen

Deep Residual-Dense Lattice Network für Sprachverbesserung

Mohammad Nikzad, Aaron Nicolson, Yongsheng Gao, Jun Zhou, Kuldip K. Paliwal, Fanhua Shang
Deep Residual-Dense Lattice Network für Sprachverbesserung
Abstract

Convolutionale neuronale Netze (CNNs) mit Residual-Verbindungen (ResNets) und kausalen dilatierten convolutionalen Einheiten sind der bevorzugte Ansatz für tiefes Lernen in der Sprachverbesserung. Während Residual-Verbindungen die Gradientenfluss während des Trainings verbessern, kann es aufgrund wiederholter Additionen von Ausgaben tieferer Schichten mit Ausgaben flacherer Schichten zu einer Verarmung der Merkmale kommen. Eine Strategie zur Verbesserung der Wiederverwendung von Merkmalen besteht darin, sowohl ResNets als auch dicht verbundene CNNs (DenseNets) zu kombinieren. DenseNets weisen jedoch eine übermäßige Parameterallokation für die Merkmalswiederverwendung auf. Ausgehend von diesem Problem schlagen wir das Residual-Dense-Lattice-Netz (RDL-Net) vor, ein neues CNN für die Sprachverbesserung, das sowohl Residual- als auch dichte Aggregationen nutzt, ohne übermäßig viele Parameter für die Merkmalswiederverwendung zu verwenden. Dies wird durch die Topologie der RDL-Blöcke erreicht, die die Anzahl der Ausgaben, die für die dichte Aggregation verwendet werden, begrenzen. Unsere umfassenden experimentellen Untersuchungen zeigen, dass RDL-Netze eine höhere Leistung in der Sprachverbesserung erzielen als CNNs, die lediglich Residual- oder dichte Aggregationen einsetzen. Zudem verbrauchen RDL-Netze erheblich weniger Parameter und weisen einen geringeren Rechenaufwand auf. Darüber hinaus zeigen wir, dass RDL-Netze viele aktuelle state-of-the-art Ansätze für die tiefes Lernen-basierte Sprachverbesserung übertrifft.