2ヶ月前

方向性に配慮したニューラル音声強化と認識の共同適応について - 実際の多人数会話環境における研究

Yicheng Du; Aditya Arie Nugraha; Kouhei Sekiguchi; Yoshiaki Bando; Mathieu Fontaine; Kazuyoshi Yoshii
方向性に配慮したニューラル音声強化と認識の共同適応について - 実際の多人数会話環境における研究
要約

本論文では、現実の複数参加者の会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音のある音声認識について述べる。シミュレーション環境で積極的に研究されている主要なアプローチは、教師あり学習によって訓練された深層ニューラルネットワーク(DNN)に基づいて、順次的に音声強化と自動音声認識(ASR)を行うことである。しかし、当該タスクにおいては、訓練条件とテスト条件の不一致やユーザーの頭部動きにより、事前に訓練されたシステムが機能しない。対象話者の発話をのみ強化するために、頭部相対的な特定方向に対応する音声成分を適応的に抽出できるDNNベースの音声マスク推定器を使用したビームフォーミングを用いる。我々は、クリーンな音声信号と真値の転写テキスト、およびノイジーな音声信号と高信頼度の推定転写テキストを使用して、実行時にマスク推定器とASRモデルを同時に更新する半教師あり適応方法を提案する。最先端の中距離音声認識システムを使用した比較実験では、提案手法がASR性能を大幅に向上させることを示している。注:「中距離」(distant)という表現は、「遠距離」と訳すこともできますが、この文脈では「中距離」の方が一般的です。また、「頭部相対的な特定方向」は「ヘッドレルative特定方向」とも訳せますが、「頭部相対的な特定方向」の方がより自然な日本語表現となります。

方向性に配慮したニューラル音声強化と認識の共同適応について - 実際の多人数会話環境における研究 | 最新論文 | HyperAI超神経