HyperAIHyperAI

Command Palette

Search for a command to run...

WHAM!: Die Erweiterung der Sprachtrennung auf geräuscharme Umgebungen

Gordon Wichern¹, Joe Antognini², Michael Flynn², Licheng Richard Zhu², Emmett McQuinn², Dwight Crow², Ethan Manilow¹, Jonathan Le Roux¹

Zusammenfassung

Kürzliche Fortschritte bei der Trennung von Sprachsignalen mehrerer überlappender Sprecher mithilfe eines einzelnen Audiospiels haben uns dem Lösungsansatz des Cocktail-Party-Problems näher gebracht. Dennoch basieren die meisten Studien in diesem Bereich auf einer eingeschränkten Problemstellung, bei der die Leistung bei fast vollständiger Überlappung der Sprecher, künstlich niedrigen Abtast frequenzen und ohne externe Hintergrundgeräusche verglichen wird. In dieser Arbeit streben wir an, das Feld in Richtung realistischerer und anspruchsvollerer Szenarien zu bewegen. Zu diesem Zweck haben wir den WSJ0 Hipster Ambient Mixtures (WHAM!) Datensatz erstellt, der aus Zwei-Sprecher-Mischungen des wsj0-2mix-Datensatzes besteht, die mit echten Umgebungsgeräuschproben kombiniert wurden. Die Proben wurden in Kaffeehäusern, Restaurants und Bars im San Francisco Bay Area gesammelt und sind öffentlich zugänglich gemacht worden. Wir evaluieren verschiedene Architekturen für die Sprachtrennung sowie Zielfunktionen, um ihre Robustheit gegenüber Geräuschen zu testen. Obwohl sich die Trennleistung durch das Geräusch verschlechtert, beobachten wir bei den meisten Ansätzen immer noch erhebliche Verbesserungen im Vergleich zu den geräuschbehafteten Signalen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp