9日前
音声視覚音声認識における再帰型ニューラルネットワークトランシデューサー
Takaki Makino, Hank Liao, Yannis Assael, Brendan Shillingford, Basilio Garcia, Otavio Braga, Olivier Siohan

要約
本研究では、再帰型ニューラルネットワークトランシューダー(RNN-T)アーキテクチャを基盤とする大規模な音声・視覚連携音声認識システムを提案する。このシステムの開発を支援するため、YouTubeの公開動画から抽出したセグメント化された発話データを用いて、大規模な音声・視覚(A/V)データセットを構築した。その結果、合計31,000時間に及ぶ音声・視覚学習データが得られた。本システムの音声のみ、視覚のみ、および音声・視覚連携の各モードにおける性能を、2つの大語彙テストセット上で比較評価した。具体的には、公開YouTube動画から抽出された発話セグメントから構成されるYTDEV18および公開されているLRS3-TEDデータセットを用いた。視覚モダリティの貢献を強調するため、背景ノイズや発話の重なりが人工的に加えられたYTDEV18データセット上でも性能を評価した。現時点で知られている限り、本システムはLRS3-TEDデータセットにおいて、既存の最先端技術を顕著に上回る性能を達成した。