WHAM!: Die Erweiterung der Sprachtrennung auf geräuscharme Umgebungen

Kürzliche Fortschritte bei der Trennung von Sprachsignalen mehrerer überlappender Sprecher mithilfe eines einzelnen Audiospiels haben uns dem Lösungsansatz des Cocktail-Party-Problems näher gebracht. Dennoch basieren die meisten Studien in diesem Bereich auf einer eingeschränkten Problemstellung, bei der die Leistung bei fast vollständiger Überlappung der Sprecher, künstlich niedrigen Abtast frequenzen und ohne externe Hintergrundgeräusche verglichen wird. In dieser Arbeit streben wir an, das Feld in Richtung realistischerer und anspruchsvollerer Szenarien zu bewegen. Zu diesem Zweck haben wir den WSJ0 Hipster Ambient Mixtures (WHAM!) Datensatz erstellt, der aus Zwei-Sprecher-Mischungen des wsj0-2mix-Datensatzes besteht, die mit echten Umgebungsgeräuschproben kombiniert wurden. Die Proben wurden in Kaffeehäusern, Restaurants und Bars im San Francisco Bay Area gesammelt und sind öffentlich zugänglich gemacht worden. Wir evaluieren verschiedene Architekturen für die Sprachtrennung sowie Zielfunktionen, um ihre Robustheit gegenüber Geräuschen zu testen. Obwohl sich die Trennleistung durch das Geräusch verschlechtert, beobachten wir bei den meisten Ansätzen immer noch erhebliche Verbesserungen im Vergleich zu den geräuschbehafteten Signalen.