HyperAIHyperAI
vor 2 Monaten

Ein alternativer Ansatz zur Stimmentnahme

Pham, The Hieu ; Nguyen, Phuong Thanh Tran ; Nguyen, Xuan Tho ; Nguyen, Tan Dat ; Nguyen, Duc Dung
Ein alternativer Ansatz zur Stimmentnahme
Abstract

Die Forschung zur sprachlichen Hinweis-basierten Extraktion des Zielredners (Target Speaker Extraction, TSE) hat sich bisher hauptsächlich auf die Modellierung von Mischungen und Referenzsprache konzentriert, wodurch hohe Leistungen im Englischen erzielt wurden, dank der Verfügbarkeit großer Datensätze. Allerdings wurde weniger Aufmerksamkeit den konsistenten Eigenschaften der menschlichen Sprache über verschiedene Sprachen hinweg gewidmet. Um diese Lücke zu schließen, stellen wir ein alternatives Modell vor, das die Herausforderung bewältigt, TSE-Modelle von einer Sprache in eine andere zu transferieren, ohne Feinabstimmung durchzuführen. In dieser Arbeit schlagen wir einen Gating-Mechanismus vor, der in der Lage ist, spezifische Frequenzen basierend auf den akustischen Merkmalen des Redners zu modifizieren. Das Modell erreicht einen SI-SDR von 17,3544 bei sauberem englischen Sprachmaterial und 13,2032 bei sauberem Sprachmaterial mit Wham!-Rauschen, was seine Überlegenheit in der Anpassungsfähigkeit an verschiedene Sprachen gegenüber allen anderen Modellen unterstreicht.

Ein alternativer Ansatz zur Stimmentnahme | Neueste Forschungsarbeiten | HyperAI