Das Spracherkennungstool Von Google Kam Zunächst Den Eigenen Mitarbeitern Zugute

Vor Kurzem hat das Google Brain-Team das Parrotron-Projekt veröffentlicht, um Menschen und Geräten zu helfen, Menschen mit Sprachstörungen besser zu verstehen. Parrotron beginnt mit der Audioanalyse und löst das Problem aus der Perspektive der Sprachsignale. Es verwendet ein einziges durchgängiges Training eines tiefen neuronalen Netzwerks, um die Sprache von Menschen mit Sprachbehinderungen direkt in flüssige synthetische Sprache umzuwandeln und ihnen so bei der Lösung von Kommunikationsproblemen zu helfen.
Dimitri Kanevsky wurde in den 1950er Jahren in Russland geboren. Er wuchs während des chinesisch-sowjetischen Kalten Krieges auf, schloss jedoch dennoch sein Studium ab und promovierte in Mathematik.
Sein Studium und seine Berufslaufbahn begannen in Russland, und er zog weiter nach Israel und Deutschland. Er entschied sich schließlich, in den Vereinigten Staaten zu bleiben und wurde Forschungswissenschaftler bei Google, wo er sich auf das Gebiet der Spracherkennungsalgorithmen konzentrierte.
Dies scheint der Lebensweg einer akademischen Elite zu sein: eine gute Ausbildung erhalten, eine US-Greencard bekommen, einen glamourösen Job, 152 US-Patente im wissenschaftlichen und technologischen Bereich und schließlich den Gipfel des Lebens im Silicon Valley erreichen.

Die Geschichte ist alles andere als einfach. Dimitri Kanevsky ist kein gewöhnlicher Mensch. Für die meisten Menschen ist es schwer vorstellbar, dass auch er zur Gemeinschaft der Hörgeschädigten gehört.
Dimitri Kanevsky ertaubte im Alter von einem Jahr aufgrund von Medikamenten, seine Familie entschied sich jedoch dennoch für eine normale Schulbildung für ihn. Er lernte schon als Kind Lippenlesen und Aussprache und besuchte normale Schulen. Und als Teenager begann er, mit Hilfe der russischen Aussprache Englisch zu lernen.
Beim Erlernen der englischen Sprache stieß er jedoch aufgrund seiner Hörbehinderung und der unterschiedlichen russischen Aussprache auf große Hindernisse bei der Sprachkommunikation. Seine Sätze waren eher vage und für sein Gegenüber oft unverständlich. Auch verbale Fürsorge für die Familie kann unter Umständen nicht gewährleistet werden.
Einfach gesagt, die meisten Leute haben Schwierigkeiten, das Englisch zu verstehen, das er direkt spricht. Um sein eigenes Problem zu lösen und mehr Menschen mit ähnlichen Problemen zu helfen, hat Dimitri Kanevsky am Thema Spracherkennung gearbeitet.

In der Medizin nennt man diesen Zustand der undeutlichen Sprache "Dysarthrie".Laut StatistikWeltweit leiden bis zu eine Million Menschen aufgrund einer körperlichen Erkrankung an Dysarthrie.
Dysarthrie ist eine Sprachstörung, die durch Neuropathie, Lähmung der sprachbezogenen Muskeln, geschwächte Kontraktionskraft oder Bewegungskoordination verursacht wird und allgemein als „undeutliche Sprache“ bezeichnet wird.
Beispielsweise können Schlaganfall, Zerebralparese, Parkinson, Down-Syndrom, ALS (Amyotrophe Lateralsklerose) und viele andere Krankheiten diesen Zustand verursachen.

Ebenfalls bei Google wurde bei einer Brand-Marketing-Managerin namens Aubrie Lee eine seltene Muskeldystrophie (ALS) diagnostiziert, aufgrund derer sie viel Zeit im Rollstuhl verbringen musste.
Der kontinuierliche Verlust an Muskelmasse in ihrem gesamten Körper verursachte ihr auch Kommunikationsschwierigkeiten. Aubrie hatte Probleme mit dem Hören und der Aussprache und wurde oft missverstanden, weil sie nicht lächeln konnte. Darüber hinaus spricht sie mit mehreren Akzenten und hat eine unscharfe Aussprache, sodass ihr Gegenüber in Gesprächen oft nicht versteht, was sie meint.
Um Kollegen wie Dimitri Kanevsky und Aubrie Lee bei der Lösung ihrer Sprachprobleme zu helfen, sind Artikulationsschwierigkeiten allmählich zu einer wissenschaftlichen Forschungsrichtung des KI-Forschungsteams von Google geworden.
Betreuung von Menschen mit Sprachbarrieren,Google bringt bahnbrechendes Tool auf den Markt
Als Kanevsky vor einigen Jahren mit 30 Jahren Erfahrung in der Spracherkennung zur KI-Forschungsgruppe von Google stieß, gab es keine praktischen Tools, die ihm eine normale Kommunikation mit anderen ermöglicht hätten. Für jedes Meeting muss Kanevsky den CART-Dienst im Voraus buchen und sich darauf verlassen, dass der Untertiteler das Meeting betritt und die Sprachnachricht für das Gespräch auf den Bildschirm eingibt.
Ebenso müssen Aubrie und ihre Kollegen große Anstrengungen unternehmen, um eine Arbeitskommunikation zu ermöglichen, die für normale Menschen problemlos möglich ist. Doch dieses Dilemma gehört langsam der Vergangenheit an.
Im Februar 2019 brachte Google eine App auf den Markt——Live-Transkription , was Hoffnung für die portable Sprachübersetzung bringt. Es handelt sich um eine Anwendung, die Sprache aus der realen Welt sofort transkribiert. Dabei wird das eingebaute Mikrofon des Telefons verwendet, um Sprache in Text umzuwandeln, der in Echtzeit angezeigt wird.
Dann, auf der Google I/O-Konferenz im Mai, Projekt Euphoria Es wurde vorgeschlagen, dass dieses Programm eine Spracherkennungslösung für Menschen mit Sprachbehinderungen aufgrund von ALS bietet.

Diesen Monat hat Google mit Parrotron ein neues KI-Tool auf den Markt gebracht, das vage Geräusche direkt in standardmäßige synthetische Geräusche umwandeln kann.Damit wird die Technologie zur Überwindung von Sprachbarrieren einen Schritt weiter gebracht.
Parrotron vonDurchgängiges tiefes neuronales NetzwerkEs beginnt mit der Perspektive der Audioanalyse. Bei der Anwendung spricht der Tester mit einem Mobiltelefon oder einem anderen Gerät und kann sich nach dem Nacherzählen schnell die Standardaussprache aneignen.
In der Zeitung „Parrotron: Ein End-to-End-Modell zur Sprachkonvertierung und seine Anwendung auf die Sprache von Hörgeschädigten und die Sprachtrennung“In der Studie schnitt Parrotrn gut ab und erzielte neue Durchbrüche bei der Genauigkeit der Spracherkennung und -konvertierung.
Adresse des Artikels: https://arxiv.org/abs/1904.04169
Parrotron: Unklare Wörter in klare Sprache übersetzen
Wie also wird diese scheinbar hochtechnologische Technologie erreicht?
Parrotron ist ein End-to-End-Sequenz-zu-Sequenz-Modell, das mithilfe eines parallelen Korpus von Eingabe-/Ausgabe-Sprachpaaren trainiert wird, um mehrdeutige Sprache normalen Sätzen zuzuordnen..

Das Netzwerkmodell besteht aus einem Encoder und Decoder mit einem Aufmerksamkeitsmechanismus. Schließlich synthetisiert ein Vocoder die Zeitbereichswellenform, um ein vorhergesagtes Audiosignal bereitzustellen.
Der Encoder wandelt eine Folge akustischer Frames in eine verborgene Merkmalsdarstellung um, und der Decoder analysiert die Darstellung, um das Spektrogramm vorherzusagen.
Die Operation gliedert sich in zwei Schritte:Zuerst erstellen wir ein Sprach-zu-Sprache-Konvertierungsmodell für standardmäßiges, glattes Audio und passen dann die Modellparameter an, um unscharfe Sprache als Eingabe zu verwenden, damit das Modell lernen kann, zu unterscheiden und zu erkennen.

Um die Spracheigenschaften von ALS-Patienten zu simulieren, verwendeten sie das ALS-Sprachkorpus aus dem Projekt Euphonia und erstellten mehrdeutige Sätze, indem sie Sprache als Trainingsdaten synthetisierten.
Bei bestimmten Personen wird das aufgezeichnete Material von der jeweiligen Person selbst bereitgestellt.
Nach dem TrainingTransformationsmodelle können Störfaktoren in der Sprache eliminieren, wie etwa die Auswirkungen von Stress, Rhythmus und Hintergrundgeräuschen;Ignorieren Sie gleichzeitig alle nonverbalen Störungen, einschließlich Sprechereigenschaften, Umgebungsfaktoren, Sprechstil und ausschließlich Analyse und Verarbeitung des Gesprächsinhalts.
Die ersten beiden Tester von Parrontron: keine Spannung
Um die tatsächliche Wirkung von Parrotron zu überprüfen, müssen wir natürlich sehen, wie es sich in der Praxis verhält. Als beste Kandidaten für den Test galten zweifellos Dimitri Kanevsky und Aubrie Lee.
Im Experiment zeichnete Dimitri ein 15 Stunden langes Korpus auf und ließ das Modell die Feinheiten seiner Sprache lernen. Durch Lernen wird das Modell in die endgültige Übersetzung gebracht,Die Übersetzungsfehlerrate im Testset wurde von 89% zu Beginn auf 32% reduziert .
Mit anderen Worten: Mithilfe der von Parrotron transkribierten Sprache kann die andere Partei oder das ASR-System (Spracherkennungssystem) ihn problemlos verstehen.
Details zu Kanevskys Verwendung von Parrotron
Später führte auch Aubrie Lee einen Test durch.Während ihres eineinhalbstündigen Redebeitrags übersetzte das Modell die Rede präzise und ermöglichte ihr, sich klar auszudrücken..
KI für das Gemeinwohl: Die Mission der künstlichen Intelligenz
In den letzten Jahren wurden häufig Barrierefreiheitsprojekte vorgeschlagen, die auf künstlicher Intelligenz basieren. Es entstehen viele Pflegetechnologien, die Menschen mit Behinderungen helfen, neue Türen zu öffnen.
Natürlich dient die Technologie diesen Menschen, wird aber auch von diesen speziellen Gruppen vorangetrieben. Dimitri Kanevsky beispielsweise ist sich der Schwierigkeiten bewusst, die Dysarthrie mit sich bringt und hat sich der Forschung im Bereich Spracherkennung und Kommunikation verschrieben. Aubrie Lee nutzt ihre leidenschaftliche und energische Lebenseinstellung, um zu mehr Investitionen in die Forschung zu Menschen mit Behinderungen anzuregen und diese voranzutreiben.

Obwohl die aktuellen Daten zeigen, dass die Situation nicht optimistisch ist:Nur einer von zehn Menschen mit Behinderungen weltweit hat Zugang zu technischen Hilfsmitteln. Doch glücklicherweise ändert sich hier vieles, und es gibt einige vielversprechende Fortschritte.
Als Technologieriese setzt Google immer noch seine KI für das GemeinwohlPläne und Tools wie Parrotron sind wahrscheinlich die Schritte hin zu dieser schönen Vision.
In einer Zeit, in der die Technologie der künstlichen Intelligenz die Welt erobert, haben wir die Transformation und Kreativität der KI in der Kunst sowie ihre positive Förderung des gesellschaftlichen Lebens erlebt. Wir haben aber auch gesehen, dass manche Menschen KI nutzen, um Gesichter böswillig zu verändern, zu spleißen und Dinge aus dem Nichts zu erschaffen.
Ich hoffe, dass KI zu ihrem ursprünglichen wissenschaftlichen Zweck zurückkehren, mehr Menschen in Not helfen und die Welt zu einem besseren Ort machen kann!
-- über--