HyperAIHyperAI

Command Palette

Search for a command to run...

Ein alternativer Ansatz zur Stimmentnahme

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

Zusammenfassung

Die Forschung zur sprachlichen Hinweis-basierten Extraktion des Zielredners (Target Speaker Extraction, TSE) hat sich bisher hauptsächlich auf die Modellierung von Mischungen und Referenzsprache konzentriert, wodurch hohe Leistungen im Englischen erzielt wurden, dank der Verfügbarkeit großer Datensätze. Allerdings wurde weniger Aufmerksamkeit den konsistenten Eigenschaften der menschlichen Sprache über verschiedene Sprachen hinweg gewidmet. Um diese Lücke zu schließen, stellen wir ein alternatives Modell vor, das die Herausforderung bewältigt, TSE-Modelle von einer Sprache in eine andere zu transferieren, ohne Feinabstimmung durchzuführen. In dieser Arbeit schlagen wir einen Gating-Mechanismus vor, der in der Lage ist, spezifische Frequenzen basierend auf den akustischen Merkmalen des Redners zu modifizieren. Das Modell erreicht einen SI-SDR von 17,3544 bei sauberem englischen Sprachmaterial und 13,2032 bei sauberem Sprachmaterial mit Wham!-Rauschen, was seine Überlegenheit in der Anpassungsfähigkeit an verschiedene Sprachen gegenüber allen anderen Modellen unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein alternativer Ansatz zur Stimmentnahme | Paper | HyperAI