vor 8 Monaten

Zusammenfassung

Die Forschung zur sprachlichen Hinweis-basierten Extraktion des Zielredners (Target Speaker Extraction, TSE) hat sich bisher hauptsächlich auf die Modellierung von Mischungen und Referenzsprache konzentriert, wodurch hohe Leistungen im Englischen erzielt wurden, dank der Verfügbarkeit großer Datensätze. Allerdings wurde weniger Aufmerksamkeit den konsistenten Eigenschaften der menschlichen Sprache über verschiedene Sprachen hinweg gewidmet. Um diese Lücke zu schließen, stellen wir ein alternatives Modell vor, das die Herausforderung bewältigt, TSE-Modelle von einer Sprache in eine andere zu transferieren, ohne Feinabstimmung durchzuführen. In dieser Arbeit schlagen wir einen Gating-Mechanismus vor, der in der Lage ist, spezifische Frequenzen basierend auf den akustischen Merkmalen des Redners zu modifizieren. Das Modell erreicht einen SI-SDR von 17,3544 bei sauberem englischen Sprachmaterial und 13,2032 bei sauberem Sprachmaterial mit Wham!-Rauschen, was seine Überlegenheit in der Anpassungsfähigkeit an verschiedene Sprachen gegenüber allen anderen Modellen unterstreicht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Audio- Und Sprachverarbeitung

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Audio- Und Sprachverarbeitung

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Ein alternativer Ansatz zur Stimmentnahme

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein alternativer Ansatz zur Stimmentnahme

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein alternativer Ansatz zur Stimmentnahme

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters