HyperAIHyperAI

Command Palette

Search for a command to run...

Richtungsbewusste gemeinsame Anpassung der neuronalen Sprachverbesserung und -erkennung in realen Mehrparteien-Konversationsumgebungen

Yicheng Du Aditya Arie Nugraha Kouhei Sekiguchi Yoshiaki Bando Mathieu Fontaine Kazuyoshi Yoshii

Zusammenfassung

Dieses Papier beschreibt die Erkennung von rauschbehafteten Sprachsignalen für ein Headset zur erweiterten Realität, das die verbale Kommunikation in realen Mehrparteien-Konversationsumgebungen unterstützt. Ein wichtiger Ansatz, der in simulierten Umgebungen intensiv untersucht wurde, besteht darin, sequentiell Sprachverbesserung und automatische Spracherkennung (ASR) durchzuführen, basierend auf tiefen neuronalen Netzen (DNNs), die in einem überwachten Modus trainiert wurden. In unserem Aufgabenbereich funktioniert jedoch ein vorab trainiertes System aufgrund der Diskrepanz zwischen den Trainings- und Testbedingungen sowie den Kopfbewegungen des Benutzers nicht zufriedenstellend. Um ausschließlich die Äußerungen des Zielredners zu verbessern, verwenden wir eine Strahlformung basierend auf einem DNN-basierten Sprachmaskenschätzer, der die sprachlichen Komponenten in einer kopfrelativen bestimmten Richtung adaptiv extrahieren kann. Wir schlagen eine semi-überwachte Anpassungsmethode vor, die während der Laufzeit sowohl den Maskenschätzer als auch das ASR-Modell gemeinsam aktualisiert, indem es saubere Sprachsignale mit wahren Transkriptionen und rauschbehaftete Sprachsignale mit hochgradig sicheren geschätzten Transkriptionen verwendet. Vergleichsexperimente mit dem standesüblichen Fernspracherkennungssystem zeigen, dass die vorgeschlagene Methode die Leistung der automatischen Spracherkennung signifikant verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Richtungsbewusste gemeinsame Anpassung der neuronalen Sprachverbesserung und -erkennung in realen Mehrparteien-Konversationsumgebungen | Paper | HyperAI