End-to-End Neural Speaker Diarization mit Self-attention

Die Sprecherdiarisation wurde bisher hauptsächlich auf der Basis der Clustering von Sprecher-Embeddings entwickelt. Der clusterverbundene Ansatz weist jedoch zwei wesentliche Probleme auf: Erstens wird er nicht direkt auf die Minimierung von Diarisation-Fehlern optimiert, und zweitens kann er Sprecherüberlagerungen nicht korrekt verarbeiten. Um diese Probleme zu lösen, wurde kürzlich die End-to-End Neural Diarisation (EEND) vorgestellt, bei der ein bidirektionaler lang- und kurzfristiger Gedächtnisnetzwerk (BLSTM) direkt aus einer Aufnahme mit mehreren Sprechern die Sprecherdiarisationsergebnisse ausgibt. In dieser Studie erweitern wir EEND, indem wir Selbst-Attention-Blöcke anstelle von BLSTM-Blöcken einführen. Im Gegensatz zum BLSTM, das lediglich auf seinen vorherigen und nachfolgenden versteckten Zustand bedingt ist, wird die Selbst-Attention direkt auf alle anderen Frames bedingt, was sie besonders geeignet für die Behandlung der Sprecherdiarisation macht. Wir haben unsere vorgeschlagene Methode an simulierten Mischungen, realen Telefonanrufen und echten Dialogaufnahmen evaluiert. Die experimentellen Ergebnisse zeigen, dass die Selbst-Attention entscheidend für eine hohe Leistung ist und dass unsere Methode signifikant besser abschneidet als die herkömmliche BLSTM-basierte Methode. Zudem übertrifft unsere Methode sogar die Leistung des derzeitigen Standes der Technik basierend auf x-Vector-Clustering. Schließlich zeigen wir anhand der Visualisierung der latenten Repräsentationen, dass die Selbst-Attention nicht nur lokale Dynamiken der Sprachaktivität, sondern auch globale Sprechermerkmale erfassen kann. Der Quellcode unserer Methode ist online unter https://github.com/hitachi-speech/EEND verfügbar.