HyperAIHyperAI
vor 16 Tagen

Ein effizienter kurzfristiger diskreter Kosinustransform und ein anspruchsvolles MultiResUNet-Framework für die Musikquellentrennung

{N. Mitianoudis, A. Bousis, T. Sgouros}
Abstract

Das Problem der Musikquellentrennung, bei dem es darum geht, die in einem Mischsignal enthaltenen Audio-Komponenten zu schätzen, steht seit langem im Zentrum der Forschungsaktivitäten. In jüngeren Ansätzen wird dieses Problem durch den Einsatz tiefer Lernmodelle angegangen, die Informationen aus jeder Komponente mittels Short-Time Fourier Transform (STFT)-Spektrogrammen als Eingabe extrahieren. Die meisten Ansätze gehen davon aus, dass an jedem Zeit-Frequenz-Punkt nur eine Quelle vorhanden ist, was die Zuordnung dieses Punkts zur gewünschten Quelle ermöglicht. Da diese Annahme jedoch stark ist und in der Praxis nicht immer erfüllt wird, entsteht ein Problem bei der Verwendung des Betrags des STFT als Eingabe für diese Netzwerke: der Verlust der Fourier-Phaseninformation während der Rekonstruktion der getrennten Quellen. Die Wiederherstellung der Fourier-Phaseninformation ist weder einfach handhabbar noch rechnerisch effizient zu schätzen. In diesem Artikel stellen wir eine neuartige Attentive MultiResUNet-Architektur vor, die reelle, kurzzeitige diskrete Kosinustransformationsdaten (Short-Time Discrete Cosine Transform, ST-DCT) als Eingabe verwendet. Dadurch wird das Phasenrekonstruktionsproblem vermieden, da die geeigneten Werte innerhalb des Netzwerks selbst geschätzt werden, anstatt auf komplexe Schätzverfahren oder Nachbearbeitungsalgorithmen zurückzugreifen. Die vorgeschlagene Netzwerkarchitektur weist eine U-Net-Struktur mit residualen Skip-Verbindungen und einer Aufmerksamkeitsmechanik auf, die die Skip-Verbindung mit dem Decoder-Ausgang der vorherigen Ebene korreliert. Diese Netzwerkstruktur wird erstmals für die Quellentrennung eingesetzt und ist gegenüber den aktuellen State-of-the-Art-Verfahren rechnerisch effizienter und zeigt dabei gleichzeitig eine vorteilhafte Leistung mit einem Bruchteil des Rechenaufwands.

Ein effizienter kurzfristiger diskreter Kosinustransform und ein anspruchsvolles MultiResUNet-Framework für die Musikquellentrennung | Neueste Forschungsarbeiten | HyperAI