HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Neural Speaker Diarization mit Self-attention

Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe

Zusammenfassung

Die Sprecherdiarisation wurde bisher hauptsächlich auf der Basis der Clustering von Sprecher-Embeddings entwickelt. Der clusterverbundene Ansatz weist jedoch zwei wesentliche Probleme auf: Erstens wird er nicht direkt auf die Minimierung von Diarisation-Fehlern optimiert, und zweitens kann er Sprecherüberlagerungen nicht korrekt verarbeiten. Um diese Probleme zu lösen, wurde kürzlich die End-to-End Neural Diarisation (EEND) vorgestellt, bei der ein bidirektionaler lang- und kurzfristiger Gedächtnisnetzwerk (BLSTM) direkt aus einer Aufnahme mit mehreren Sprechern die Sprecherdiarisationsergebnisse ausgibt. In dieser Studie erweitern wir EEND, indem wir Selbst-Attention-Blöcke anstelle von BLSTM-Blöcken einführen. Im Gegensatz zum BLSTM, das lediglich auf seinen vorherigen und nachfolgenden versteckten Zustand bedingt ist, wird die Selbst-Attention direkt auf alle anderen Frames bedingt, was sie besonders geeignet für die Behandlung der Sprecherdiarisation macht. Wir haben unsere vorgeschlagene Methode an simulierten Mischungen, realen Telefonanrufen und echten Dialogaufnahmen evaluiert. Die experimentellen Ergebnisse zeigen, dass die Selbst-Attention entscheidend für eine hohe Leistung ist und dass unsere Methode signifikant besser abschneidet als die herkömmliche BLSTM-basierte Methode. Zudem übertrifft unsere Methode sogar die Leistung des derzeitigen Standes der Technik basierend auf x-Vector-Clustering. Schließlich zeigen wir anhand der Visualisierung der latenten Repräsentationen, dass die Selbst-Attention nicht nur lokale Dynamiken der Sprachaktivität, sondern auch globale Sprechermerkmale erfassen kann. Der Quellcode unserer Methode ist online unter https://github.com/hitachi-speech/EEND verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp