HyperAIHyperAI

Command Palette

Search for a command to run...

aTENNuate: Optimierte Echtzeit-Sprachverbesserung mit tiefen SSMs auf Rohaudio

Yan Ru Pei Ritik Shrivastava FNU Sidharth

Zusammenfassung

Wir stellen aTENNuate vor, einen einfachen tiefen Zustandsraum-Autoencoder, der für eine effiziente Online-Rohsprachverbesserung in einem End-to-End-Verfahren konfiguriert ist. Die Leistung des Netzes wird hauptsächlich anhand von Rohsprachentraegerung evaluiert, wobei zusätzliche Bewertungen auf Aufgaben wie Super-Resolution und Dequantisierung durchgeführt werden. Wir benchmarken aTENNate an den synthetischen Testdatensätzen VoiceBank + DEMAND und Microsoft DNS1. Das Netzwerk übertrifft frühere Echtzeit-Entrauerungsmodelle in Bezug auf die PESQ-Werte, die Anzahl der Parameter, die MACs (Millionen pro Sekunde) und die Latenz. Auch als Modell zur Verarbeitung von Rohwellenformen behält das Modell eine hohe Treue zum sauberen Signal bei, mit minimalen hörbaren Artefakten. Darüber hinaus bleibt das Modell leistungsfähig, selbst wenn das rauschige Eingangssignal auf 4000 Hz und 4 Bit komprimiert wird, was darauf hinweist, dass es allgemeine Sprachverbesserungsfähigkeiten auch in Ressourcenarmen Umgebungen besitzt. Probieren Sie es aus mit pip install attenuate.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp