aTENNuate: Optimierte Echtzeit-Sprachverbesserung mit tiefen SSMs auf Rohaudio

Wir stellen aTENNuate vor, einen einfachen tiefen Zustandsraum-Autoencoder, der für eine effiziente Online-Rohsprachverbesserung in einem End-to-End-Verfahren konfiguriert ist. Die Leistung des Netzes wird hauptsächlich anhand von Rohsprachentraegerung evaluiert, wobei zusätzliche Bewertungen auf Aufgaben wie Super-Resolution und Dequantisierung durchgeführt werden. Wir benchmarken aTENNate an den synthetischen Testdatensätzen VoiceBank + DEMAND und Microsoft DNS1. Das Netzwerk übertrifft frühere Echtzeit-Entrauerungsmodelle in Bezug auf die PESQ-Werte, die Anzahl der Parameter, die MACs (Millionen pro Sekunde) und die Latenz. Auch als Modell zur Verarbeitung von Rohwellenformen behält das Modell eine hohe Treue zum sauberen Signal bei, mit minimalen hörbaren Artefakten. Darüber hinaus bleibt das Modell leistungsfähig, selbst wenn das rauschige Eingangssignal auf 4000 Hz und 4 Bit komprimiert wird, was darauf hinweist, dass es allgemeine Sprachverbesserungsfähigkeiten auch in Ressourcenarmen Umgebungen besitzt. Probieren Sie es aus mit pip install attenuate.