HyperAI超神経

Google の音声認識ツールはまず従業員に恩恵をもたらしました

特色图像

最近、Google Brain チームは、言語障害のある人々を人々とデバイスがより正確に理解できるようにする Parrotron プロジェクトをリリースしました。 Parrotron は音声分析から開始し、音声信号の観点から問題を解決します。単一のエンドツーエンドのディープ ニューラル ネットワーク トレーニングを使用して、言語障害のある人々の音声を流暢な合成音声に直接変換し、コミュニケーションの問題の解決を支援します。

ディミトリ・カネフスキーは 1950 年代にロシアに生まれ、成長期に中ソ冷戦を経験しましたが、それでも研究を完了し、数学の博士号を取得しました。

彼の研究と仕事の旅はロシアで始まり、その後イスラエルとドイツに移り、最終的には米国に残ることを選択し、Google の研究員となり、音声認識アルゴリズムの分野に注力しました。

それは学術エリートの人生の道のようです。良い教育を受け、米国のグリーンカードを取得し、魅力的な仕事をし、152 件の米国の科学技術特許を取得し、最終的にはシリコンバレーで人生の頂点に達します。

物語は単純ではありません。ディミトリ・カネフスキーは普通の人間ではありません。彼が聴覚障害者コミュニティの一員でもあるということは、ほとんどの人にとって想像するのが難しいでしょう。

ディミトリ・カネフスキーさんは1歳の時に薬物のせいで聴覚障害者になったが、家族は彼のために普通教育を選択し、子供の頃から読唇術と発声法を学び始め、普通学校で勉強してきた。そして10代のとき、ロシア語の発音を参考に英語を学び始めました。

しかし、英語を学ぶ際、聴覚障害やロシア語の発音の違いなどの理由で、言語コミュニケーションに大きな障害を抱えていました。話す文章は比較的曖昧で、相手には理解できない表現が多かった。自分の家族に対して言葉によるケアさえも提供されない場合があります。

簡単に言うと、彼の話す英語はほとんどの人にとって直接理解するのが難しいため、ディミトリ カネフスキーは自分の問題を解決し、自分と同じような問題に直面しているより多くの人々を助けるために、音声認識のテーマを克服してきました。

ディミトリ・カネフスキーは、通常のコミュニケーションを行うためだけに、音声テキスト変換ツールを使用する必要がある場合があります。

医学では、この不明瞭な音声の状態を「 「構音障害」。統計によると、世界中で 100 万人もの人が身体疾患による構音障害に苦しんでいます。

構音障害は、神経障害、言語関連筋麻痺、収縮力の低下、または運動の協調性の低下によって引き起こされる言語障害であり、一般に「不明瞭な言語」として知られています。

たとえば、脳卒中、脳性麻痺、パーキンソン病、ダウン症候群、ALS(ALS)、その他多くの病気がこの状態を引き起こす可能性があります。

相手は意味不明なことを言っていたのに、聞こえてきたのはつぶやきの連続でした…。

同じくグーグルでは、オーブリー・リーというブランドマーケティングマネージャーが稀な型の筋ジストロフィー(ALS)と診断され、長期間車椅子で過ごすことになった。

体全体の筋肉が継続的に減少しているため、コミュニケーションも困難になっています。オーブリーは聴覚と発音に苦労しており、笑うことができないために誤解されることもよくありました。また、訛りが複数あり、発音も明瞭ではないため、会話中に相手に理解できないことも多々あります。

ディミトリ カネフスキーやオーブリー リーのような仲間の言語障害を解決するために、構音障害は徐々に Google の AI 研究チームの科学研究の方向性になってきました。

言語障害を持つ人々のケア、Googleが画期的なツールを発表

数年前、Kanevsky 氏は 30 年間の音声認識の経験を持ち、Google の AI 研究グループに加わりました。当時、彼が他の人々と普通にコミュニケーションできる便利なツールはありませんでした。カネフスキー氏は会議のたびに CART サービスを事前に予約する必要があり、会議に参加して対話のために画面に音声メッセージを入力するのに字幕を使用しています。

同様に、オーブリーと同僚も、一般の人が簡単にできる仕事上のコミュニケーションを完了するには多大な労力を費やす必要があります。しかし、このジレンマは徐々に歴史になりつつあります。

2019 年 2 月、Google はアプリをリリースしました—ライブ文字起こし 、ポータブル言語変換の夜明けをもたらします。これは、携帯電話の内蔵マイクを使用して音声をリアルタイムで表示されるテキストに変換し、現実世界の音声を瞬時に文字に起こすアプリケーションです。

その後、5月のGoogle I/Oカンファレンスでは、 プロジェクトユーフォリア  ALS による言語障害を持つ人々に音声からテキストへのソリューションを提供することが提案されました。

Project Euphoria では、Google が言語の壁に適応するように AI モデルをトレーニングします

今月、Googleはファジーサウンドを標準的な合成サウンドに直接変換できるParrotronと呼ばれる新しいAIツールを発表した。これにより、言語の壁を解決するテクノロジーがさらに一歩前進します。

パロトロンエンドツーエンドのディープ ニューラル ネットワーク音声分析の観点から始まるこのコンポジションを使用すると、テスターは携帯電話やその他のデバイスに向かって話すときに、言い換えられた標準的な発音をすぐに取得できます。

紙で 「Parrotron: エンドツーエンドの音声対音声変換モデルと、聴覚障害者の音声および音声分離へのその応用」その中でも、Parrotrn は音声認識と変換精度において新たな進歩を遂げ、好調な成績を収めました。

論文アドレス: https://arxiv.org/abs/1904.04169

Parrotron: あいまいな音声を明確な音声に変換します。

では、この一見ブラックテクノロジーはどのように機能するのでしょうか?

Parrotron は、曖昧な音と通常の文の間のマッピングを確立するために、入出力音声ペアの並列コーパスを使用してトレーニングされたエンドツーエンドのシーケンスツーシーケンス モデルです。

Parrotron の構造フロー図

ネットワーク モデルは、アテンション メカニズムのエンコーダーとデコーダーで構成され、最後にボコーダーが時間領域の波形を合成して、予測されたオーディオ信号を提供します。

エンコーダは音響フレームのシーケンスを隠れた特徴表現に変換し、デコーダはその表現を解析してスペクトログラムを予測します。

操作は 2 つのステップに分かれています。まず、標準的なスムーズなオーディオの音声から音声への変換モデルを構築し、次にあいまいな音声を入力として受け取るようにモデル パラメーターを調整して、モデルが区別して認識できるようにします。

カネフスキー氏と別の従業員がパロトロンを使用

ALS 患者の音声特徴をシミュレートするために、プロジェクト ユーフォニアの ALS 音声コーパスを使用して、教師データとして合成言語によるあいまいな文章を作成しました。

特定の個人に対しては、その個人が録音素材を提供することになります。

トレーニング後は、変換モデルは言語の干渉要因を排除できる、ストレス、リズム、背景騒音の影響など。同時に、すべての非言語情報の干渉を無視してください。、話者の特性、環境要因、話し方を含み、会話の内容のみを分析して処理します。

Parrontron の最初の 2 人のテスター: 間違いありません

Parrotron の実際の効果を検証するには、実際にそのパフォーマンスを確認するのが当然です。テストの最良の候補者は間違いなくディミトリ・カネフスキーとオーブリー・リーに落ちた。

実験では、ディミトリさんはモデルに彼のスピーチの微妙な点を学習させるために 15 時間のコーパスを録音しました。学習を通じて、最終的な翻訳のモデル、テスト セットの変換エラー率は、当初の 89% から 32% まで減少しました。 

つまり、パロトロンが書き起こした音声を使えば、相手やASR(音声認識)システムが相手のことを簡単に理解できるのです。

カネフスキー氏のパロトロン使用の詳細

その後、オーブリー・リーもテストしました。彼女が投稿した 1.5 時間のスピーチを通じて、モデルによって翻訳された正確なスピーチにより、彼女は自分自身を明確に表現したいという願望を実現することができました。

 AI for Social Good: 人工知能の使命

近年、人工知能によるアクセシビリティプロジェクトが頻繁に提案されています。障害を持つ人々が新たな扉を開くことを支援しようとする、多くの思いやりのあるテクノロジーが次々に登場しています。

もちろん、テクノロジーはこれらの人々に役立つ一方で、これらの特別なグループによっても動かされています。たとえば、構音障害によって引き起こされる困難をよく知っているディミトリ カネフスキーは、音声認識とコミュニケーションの研究に専念してきました。オーブリー・リーは、人生に対する熱意と精力的な態度を活かして、障害のある人々へのさらなる研究投資を奨励し、奨励しています。

オーブリーは、障害のある人々の権利のために戦う複数のプラットフォームで活動する学際的なアーティスト兼デザイナーでもあります。

現在のデータは状況が楽観的ではないことを示していますが、世界中の障害のある人々のうち、適切な技術ツールにアクセスできるのは 10 人に 1 人だけです。しかし幸いなことに、いくつかのエキサイティングな進歩により、多くのことが変わりつつあります。

大手テクノロジー企業として、Google は依然として 「社会福祉のためのAI」計画や、Parrotron などのツールは、おそらくより良いビジョンに向けた一歩となるでしょう。

人工知能テクノロジーが世界を席巻している現在、私たちは AI が芸術や創造性を変革し、社会生活を積極的に促進するのを見てきましたが、一部の人々が AI を使用して悪意を持って顔を変えたり、物をつなぎ合わせたり、何もないところから物を作り出したりするのも見てきました。 。

AIが科学の本来の目的に立ち返り、より多くの困っている人を助け、世界をより良くすることを願っています。

- 以上 -