vor 6 Monaten

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

Zusammenfassung

Da die Diarisierung und die Quellentrennung von Sitzungsdaten eng verwandte Aufgaben sind, schlagen wir hier einen Ansatz vor, um beide Ziele gemeinsam zu erfüllen. Der Ansatz baut auf der Ziel-Sprecher-Sprachaktivitätsdetektion (TS-VAD)-Diarisierungs-Methode auf, die davon ausgeht, dass zunächst Sprecher-Embeddings verfügbar sind. Wir ersetzen das finale kombinierte Sprecheraktivitäts-Schätzungsnetzwerk der TS-VAD durch ein Netzwerk, das Sprecheraktivitäts-Schätzungen mit zeitfrequenzauflösender Genauigkeit erzeugt. Diese dienen als Masken zur Quellenausgabe, entweder mittels Maskierung oder mittels Beamforming. Die Methode ist sowohl für ein- als auch mehrkanalige Eingaben anwendbar und erreicht in beiden Fällen eine neue State-of-the-Art-Genauigkeit (Word Error Rate, WER) bei der Erkennungsaufgabe auf dem LibriCSS-Sitzungsdatensatz. Zudem berechnen wir sowohl sprecherbewusste als auch sprecherunabhängige WERs, um den Beitrag der Diarisierungsfehler zur Gesamtleistung der WER zu isolieren.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multi-Task-Lernen

Audio- Und Sprachverarbeitung

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multi-Task-Lernen

Audio- Und Sprachverarbeitung

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

TS-SEP: Gemeinsame Diarisation und Separation bedingt auf geschätzte Sprecher-Embeddings

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TS-SEP: Gemeinsame Diarisation und Separation bedingt auf geschätzte Sprecher-Embeddings

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TS-SEP: Gemeinsame Diarisation und Separation bedingt auf geschätzte Sprecher-Embeddings

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters